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为 了 满足 读者 的 需求 ， 同 时 也 是 我 们 自身 的 愿望 ， 我 们 出 版 了 第 二 版 。 尽 
管 解析 技术 不 是 快速 发 展 的 领域 ， 但 是 他 依然 在 向 前 发 展 。 当 第 一 版 在 
1990 年 出 版 的 时 候 ， 只 有 一 个 简单 的 并 且 局 限 性 相当 大 的 线性 时 间 字 符 串 
解析 算法 (algorithm for linear-time substring parsing)。 但 是 发 展 到 现在 已 
经 有 多 种 可 以 和 覆盖 所 有 确定 语言 的 强大 的 算法 ; 我 们 将 在 第 12 章 对 这 些 算 
法 进行 详细 介绍 。 在 1990 年 ，Theorem 8.1 诞 生 于 一 篇 1961 年 由 Bar-Hillel， 
Perles, 和 Shamir 发 表 的 至 今 已 经 落 满 了 灰尘 的 论文 ; 在 过 去 的 十 年 里 ， 
Theorem 8.1 被 用 于 创建 新 的 算法 ， 并 且 使 现 有 的 算法 得 到 加 强 。 我 们 在 第 
13 章 中 提 及 此 事 。 


越 来 越 多 的 非 Chomsky(non-Chomsky) 文 法 的 系统 被 使 用 ， 语 言 学 上 尤为 
明显 。20 年 前 ， 除 了 两 级 语法 之 外 没有 任何 建树 ， 而 现在 却 不 再 是 那样 ， 
我 们 在 第 15 章 描述 了 其 中 6 个 非 Chomsky 文 法 的 系统 。 曾 经 ， 非 标准 解析 
器 被 认为 是 很 十 怪 的 ; 如 今 ， 它 们 是 我 们 所 拥有 的 最 强大 的 线性 时 间 解 析 
器 (linear-time parsers) 之 一 ， 在 第 10 章 我 们 再 来 说 这 个 。 


虽然 还 不 是 很 实用 ， 但 是 以 另 一 种 方式 展现 解析 原理 的 奇妙 并 行 解 析 算 

法 ， 已 经 出 现在 人 们 的 视野 中 ， 我 们 将 在 第 14 章 详细 介绍 。 在 1990 年 还 被 
认为 不 可 能 出 现 的 广义 LL 语 法 分 析 器 ， 现 在 也 已 经 成 为 了 现实 ， 我 们 将 在 
第 11 章 介绍 其 中 的 2 个 。 


一 直 以 来 ， 解 析 器 都 被 用 于 解析 ; 现 如 今 ， 解 析 器 已 经 被 用 于 代码 生成 、 
数据 压缩 以 及 逻辑 语言 实现 等 方面 ， 如 第 17.5 节 所 示 。 而 有 全， 读者 还 能 够 
在 书目 的 第 18 章 找到 更 多 的 开发 案例 。 


Kees van Reeuwijk 曾 经 半 开 玩笑 地 称呼 我 们 的 书 为 “濒危 语法 分 析 算 法 最 
后 的 栖息 地 ”。 我 们 同意 这 种 说 法 ， 但 是 不 完全 同意 ， 因 为 它 远 不 止 于 此 ， 
对 于 这 个 说 法 我 们 受 之 无 愧 。 在 这 本 书 中 收录 的 的 一 些 算 法 ， 它 们 有 非常 
大 的 局 限 性 甚至 根本 没有 实用 价值 。 不 过 我 们 依 昌 收录 了 它们 ， 因 为 我 们 


觉得 这 些 算法 的 思路 很 有 意思 ， 并 且 可 以 给 我 们 以 启迪 ， 并 且 这 些 算 法 还 
有 成 长 和 发 展 的 空间 。 我 们 也 同样 收录 了 许多 有 实用 价值 但 是 很 少 被 用 到 
的 算法 ， 希 望 将 这 些 划 法 收录 到 书 中 能 改变 一 下 它们 的 现状 。 


关于 练习 和 问题 


这 本 书 不 是 学 校 中 所 谓 的 教科 书 。 少 数 大 学 开设 了 解析 技术 的 课程 ， 并 
且 ， 如 第 一 版 序言 所 述 ， 本 书 并 不 是 只 为 某 一 类 型 的 读者 所 准备 。 因 此 ， 
书 中 几乎 没有 布置 任何 习题 或 作业 ， 读 者 们 可 以 自己 为 自己 设置 一 些 。 章 
节 末 尾 的 问题 ， 只 是 为 了 让 读者 不 要 陷入 书 中 世界 。 我 们 将 章节 末 的 问题 
大 致 划 分 为 三 个 类 型 : 


e 无 标记 型 一 一 短 时 间 内 可 以 完成 的 项 目 。 

e 普通 标记 型 一 一 需要 花费 一 些 时 间 和 一 些 精力 来 完成 的 项 目 。 

e 标记 未 研究 型 一 一 需要 耗费 大 量 时 间 精 力 ， 但 目前 我 们 尚未 做 到 的 项 
不 过 我 们 希望 有 读者 能 完成 。 


对 于 这 些 课题 我 们 没有 特意 使 之 存在 联系 性 ， 人 读者 能 从 中 得 
到 局 发 、 乐 趣 、 或 任何 有 用 的 东西 。 关 于 问题 的 思路 、 提 示 、 部 分 或 者 完 
整 的 解决 方案 ， 见 A 章 节 。 


关于 正式 语言 (formal language) 也 有 几 个 问题 ， 不 过 我 们 没有 在 现 有 的 
文献 中 得 到 解答 ， 可 是 却 对 解 本 有 一 定 的 重要 性 。 这 些 问 题 已 经 在 章节 末 
标识 出 来 了 。 


关于 参考 文献 


第 一 版 中 ， 我 们 作为 作者 ， 阅 读 分 析 了 所 有 我 们 能 获得 得 资料 文献 。17 年 
后 ， 随 着 各 类 出 版 物 得 ti co E i 
终于 不 再 是 一 件 让 我 们 头疼 得 事情 。 在 第 一 版 的 参考 文献 中 ， 我 们 列举 

全 部 的 资料 。 但 是 在 尽数 列举 却 不 在 可 能 ， 因 为 这 eroi 
以 至 于 全 部 列举 将 会 占用 远 超 本 书 主体 内 容 的 空间 。 在 印刷 版 中 ， 我 们 只 
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中 ， 并 且 还 有 我 们 写 的 摘要 和 主题 索引 。 因 为 建立 了 网 站 ， 我 们 才能 没有 
顾虑 的 将 全 部 的 文章 列举 出 来 ， 并 且 可 以 列举 一 些 平常 不 太 容 易 获 取 的 资 
料 。 网 站 上 的 章节 是 第 18 章 ， 我 们 叫做 “电子 章节 ”。 


本 书 没有 提供 URL， 有 两 个 原因 : 首先 URL 并 不 稳定 ， 也 许 过 一 段 时 间 ， 
这 些 URL 就 不 在 指向 我 们 的 资料 了 ; 还 有 ， 特 别 是 对 软件 来 说 ， 当 你 在 阅 
读本 书 的 时 候 也 许 就 有 了 更 好 的 下 载 地 址 。 其 实 我 们 认为 ， 提 供 URL 还 不 
如 提供 一 些 搜 索 关 键 字 更 好 ， 关 键 字 能 帮 你 在 搜索 引擎 上 找到 你 想 要 的 信 
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最 近 10 年 里 ， 我 们 能 看 到 有 很 多 的 博士 论文 使 用 的 不 是 英语 ， 以 德语 、 法 
语 、 西 班 牙 语 还 有 爱沙尼亚 语 为 主 。 然 后 很 遗憾 ， 这 些 论文 由 于 语言 的 选 
择 而 难以 被 科学 界 所 发 现 。 这 对 相关 科学 领域 以 及 对 作者 本 人 来 说 ， 都 是 
一 大 损失 。 忽 略 个 人 情感 ， 我 们 得 承认 ， 美 语 是 现在 科学 界 的 主流 语言 。 
在 过 去 的 150 年 时 间 里 ， 对 科学 感 兴 趣 的 绅士 们 ， 在 休闲 之 余 会 读 一 些 法 
语 、 德 语 、 美 语 、 希 腊 语 、 拉 丁 语 或 者 是 一 点 点 楚 语 的 东西 ; 但 是 现在 ， 
学 生 和 科学 家 们 则 希望 花费 更 多 的 精力 来 吸收 海量 的 知识 。 即 便 我 们 能 够 
读 懂 大 部 分 的 上 述 语言 (并非 全 部 ) 所 写 的 内 容 ， 并 尽力 将 这 些 论文 的 精 
华 传达 给 读者 ， 但 这 仍然 不 足以 让 这 些 论文 拥有 它们 应 得 的 位 置 。 


关于 解析 技术 的 未 来 


如 果 将 来 能 出 版 第 三 版 ， 我 们 将 会 致力 于 精简 内 容 ， 尽 量 的 精细 化 
除了 参考 文献 部 分 ) 。 因 为 解析 算法 都 大 同 小 异 ， 当 你 进行 深入 研究 后 

样 的 发 现 ， 并 且 似乎 有 大 一 统 的 趋势 。 大 体 来 说 ， ， 差 不 多 所 有 的 

解析 都 是 在 左 递归 保护 下 通过 自 顶 向 下 的 搜索 来 完成 的 ; 这 么 说 是 没有 问 
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详细 论述 。 上 述 汇集 起 来 基本 上 就 涵盖 了 本 书 提 到 的 所 有 算法 ， 包 括 学 科 





交叉 处 涉及 的 解析 算法 。 存 粹 的 自 底 向 上 ， 不 包含 自 顶 向 下 组 件 的 解析 
器 ， 是 很 罕见 的 并 且 功 能 也 不 强大 。 


关于 解析 理论 的 未 来 ， 可 以 预见 算法 的 统一 将 会 大 大 的 简化 解析 的 复杂 程 
FE ; 而 在 领域 交叉 处 ， 解 析 技 术 将 会 扮演 一 个 上 面 样 的 角色 尚 不 得 而 知 。 
这 种 简化 似乎 并 不 会 延伸 到 正式 语言 领域 : 它 将 依 昌 难以 使 用 直观 的 事实 
来 证 明 所 有 LL (1) 语法 就 是 LR (1) ， 就 像 35 年 前 一 样 。 


解析 技术 最 实际 的 未 来 可 能 潜藏 在 先进 的 模式 识别 中 ， 但 不 包含 这 个 模式 
的 默认 任务 ; 然而 ， 在 领域 交叉 处 ， 解 析 技 术 所 将 扮演 的 角色 依旧 不 甚 明 
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语法 解析 (句法 分 析 ) 是 计算 机 科学 中 最 好 理解 分 支 机 构 之 一 。 解 析 器 已 
经 被 广泛 应 用 于 大 量 的 学 科 : 例如 ， 计 算 机 科学 (编译 器 构造 、 数 据 库 接 
口 、 自 描述 数据 库 、 人工 智能 ) ， 语 言 学 (文本 分 析 、 语 料 库 分 析 、 机 器 
翻译 、 圣 经 的 文本 分 析 ) 、 文 档 编 制 和 格式 转换 、 排 版 化 学 公式 中 和 在 染 
色 体 识别 等 等 ;解析 器 可 以 在 大 量 的 学 科 中 使 用 (也许 已 经 在 使 用 中 了 ) © 
因此 ， 现 今 还 没有 一 本 向 非 专业 人 士 系统 介绍 解析 技术 的 书籍 出 版 ， 的 
是 一 件 很 奇怪 的 事情 。 其 中 的 一 个 原因 可 能 是 ， 解 析 素 来 被 认为 是 一 个 " 难 
题 "。 不过， 根据 我 们 在 研究 阿姆斯特丹 编译 器 (Amsterdam Compiler 
Kit) 以 及 在 讲解 编译 器 构造 的 经 验 ， 解 析 技 术 可 以 通过 一 些 简明 的 方式 来 
解释 说 明 。 本 书 就 是 在 这 样 的 情况 下 出 版 的 。 


本 书 并 不 是 只 单一 的 面向 某 一 部 分 读者 。 相 反 ， 在 编写 时 ， 我 们 一 直 在 努 
力 让 本 书 适合 于 学 生 、 各 学 科 的 老师 、 各 个 行业 不 懂 解 析 的 人 、 各 种 科学 
报刊 的 狂热 读者 、 等 等 等 等 。 这 项 技术 将 很 难以 课程 形式 出 现 ， 因 为 对 于 
这 种 定时 开讲 的 内 容 固定 的 教学 模式 ， 并 不 适合 上 面 提 到 的 复杂 的 读者 群 
体 ; 这 就 是 我 们 出 版 这 本 书 的 目的 ， 它 可 以 让 你 在 需要 的 时 候 ， 在 任何 时 
间 任 何 地 点 没有 障碍 的 获取 你 需要 的 知识 。 


要 应 对 这 样 一 个 复杂 的 读者 群体 ， 是 有 一 定 的 困难 的 (当然 也 有 好 处 ) 。 
本 书 虽然 没有 明显 的 使 用 数学 理论 ， 但 不 可 避免 的 书 中 也 蕴含 了 大 量 的 额 
数学 思想 。 大 部 分 解析 技术 的 专业 术语 在 书 中 都 给 出 了 明确 的 定义 ， 但 仍 
然 有 部 分 处 于 学 科 边 缘 的 术语 我 们 没有 进行 定义 。 每 一 位 参与 过 非 自己 研 
究 领 域 的 主题 研究 的 读者 ， 应 该 都 能 明白 这 种 情况 。 读 者 们 可 以 跳 过 这 些 
术语 ， 或 者 用 自己 相对 熟悉 的 东西 来 进行 替代 ， 然 后 你 当然 不 希望 这 个 术 
语 出现 的 太 频繁 。 当 然 书 中 也 会 有 一 些 地 方 ， 会 让 读者 觉得 讲述 的 非常 明 
确 易 懂 (也许 本 段 就 是 这 样 的 ) 。 有 一 点 可 能 会 让 读者 们 感到 欣慰 的 就 
是 ， 阅 读 这 本 书 并 不 会 是 浪费 时 间 ， 或 者 像 你 在 上 一 堂 专业 课时 只 能 盯 着 
窗外 那样 难以 理解 老师 讲 的 内 容 ， 而 只 能 消磨 一 下 时 间 。 


我 们 写作 这 本 书 的 主要 目的 ， 布 望 通过 出 版 书籍 的 方式 ， 来 揭示 隐藏 于 于 
某 些 文字 表面 下 的 解析 的 存在 ， 就 像 这 个 公式 : 


Let be a mapping and ahomomorphism 


读者 并 不 需要 一 定 懂得 某 种 编程 语言 。 书 中 确实 有 两 三 个 Pascal 语 言 的 程 
序 ， 不 过 只 是 用 来 展示 而 已 ， 在 对 解析 的 阔 述 中 这 个 并 不 重要 。 丨 正 需 要 
具有 的 时 对 算法 的 了 解 ， 尤 其 时 递归 算法 (recursion) 。Howard 
Johnston (Prentice-Hall, 1985) 5 49 Learning to program 或 者 Richard 
Bornat (Prentice-Hall 1987) % 4 Programming from first principles > 3x € 
书 已 经 为 我 们 提供 了 足够 多 的 知识 储备 (虽然 似乎 有 些 过 分 的 详细 了 ) © 
选择 Pascal， 是 因为 这 差不多 是 唯一 一 门 在 计算 机 领域 之 外 被 使 用 的 编程 


BET: 


结尾 处 符 的 大 量 参 考 文献 应 该 是 本 书 的 一 大 特色 了 。 对 参考 文献 感 兴 趣 的 

读者 可 能 比 我 们 预期 的 还 要 多 ， 尤 其 是 对 本 书 中 所 提 及 的 某 些 领域 有 所 了 

解 的 读者 ， 不 管 是 不 是 通过 这 本 书 所 产生 的 了 解 。 参 考 文献 通过 列表 形式 
示 ， 这 样 更 利于 读者 查找 ; 批注 放 在 了 文章 的 页 脚 ， 并 且 也 在 书 尾 页 





出 ， 目 的 是 硕 望 这 些 批注 能 像 里 程 碑 一 样 可 以 帮助 读者 在 阅读 时 更 好 的 理 





关于 应 用 程序 的 解析 器 ， 本 书 不 做 详细 阐述 。 虽 然 我 们 在 第 一 章 提 到 了 很 
多 应 用 程序 ， 但 是 由 于 我 们 没有 相关 的 专业 知识 以 提供 更 多 的 详细 说 明 © 
虽然 音乐 作品 所 拥有 的 文法 结构 在 很 大 程度 上 和 解析 相同 ， 但 是 我 们 并 不 
打算 在 这 里 对 音乐 进行 探讨 ， 这 件 事 就 留 给 音乐 家 们 来 做 吧 。 同 样 的 ， 虽 
然 企 业 的 营 收 与 各 种 规章 制度 的 文法 似乎 关系 不 大 ， 但 是 我 们 坚信 这 之 间 
也 有 存在 某 些 联系 的 ， 不 过 这 将 是 社会 心理 研究 的 课题 。 
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1 简介 


解析 是 对 一 种 给 定语 法 构建 其 线性 表达 的 过 程 。 这 一 定义 如 此 抽象 ， 就 是 
为 了 尽 可 能 进行 广泛 的 解释 。“ 线 性 表达 ”可 能 是 对 一 个 句子 ， 一 个 计算 机 程 
序 ， 一 组 编织 图 案 ， 一 连 串 的 地 质地 层 ， 一 首 乐 曲 ， Si 
作 ， 总 之 线性 序列 就 是 前 面 的 元 素 会 以 菜 种 方式 限制 下 一 个 元 素 的 表达 。 
F-RA CRANE 而 有 些 语 法 目前 还 在 研究 之 中 尚未 完全 确 
定 ， 而 还 有 一 些 语 法 目前 仅仅 只 是 有 了 一 个 大 体 的 形状 而 内 部 完全 不 了 
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每 种 语法 ， 一 般 都 有 无 限 的 线性 表达 (CT) 来 构造 表达 。 也 就 是 说 一 组 
有 限 的 语法 结构 ， 可 以 用 来 构造 无 限 的 句子 。 这 是 语法 范式 的 主要 力量 ， 
也 是 语法 重要 性 的 主要 源泉 : 它 简要 的 总 结 了 某 一 个 类 的 无 数 个 对 象 的 结 
构 。 


a 个 被 称 为 解析 的 构造 过 程 。 其 中 一 个 原因 是 ， 现 有 
能 帮助 我 们 更 进一步 的 展示 这 个 对 象 。 比 如 当 我 们 知道 了 一 句 话 的 
Raed Pek p di iat > 那么 我 们 就 更 容易 理解 这 一 名 
话 或 者 将 这 句 话 翻 译 出 来 了 。 一 旦 一 篇 文档 的 结构 被 弄 明和 白 之 后 ， 这 简 文 
档 就 能 很 容易 的 被 理解 了 。 


第 二 个 原因 是 ， 在 某 种 意义 上 语法 代表 了 我 们 对 观察 到 的 句子 的 理解 : X 
于 蜜蜂 行为 的 解释 ， 我 们 给 出 的 解释 越 好 则 我 们 越 能 理解 它们 在 做 什么 


第 三 个 原因 是 ， 部 分 丢失 的 信息 ， 可 以 通过 解析 器 ， 尤 其 是 错误 修复 解析 
器 (error-repairing parsers) 来 完善 。 如 果 能 给 出 合理 的 语法 ， 那 么 就 能 
设计 出 一 个 错误 修复 解析 器 ， 来 修复 古 阿 卡 德 人 的 泥 简 〈clay tablets) 。 


给 定 一 堆 句 子 ， 从 中 找 出 产生 它们 的 语法 结构 ， 这 种 反 向 问题 被 称 为 文法 
推断 。 这 个 问题 比 解析 技术 ， 人 们 对 其 的 了 解 要 更 少 ， 不 过 仍然 在 进行 当 
中 。 这 个 问题 不 在 本 书 范围 之 内 。 国 际 文法 推断 座谈 会 (International 
Colloquiums on Grammatical Inference) 的 纪要 由 Springer 出 版 ， 名 为 
Lecture Notes in Artificial Intelligence ° 


1 简介 


1 如 果 不 存 在 元 素 之 间 的 限制 ， 序 列 仍然 是 有 语法 的 ， 只 不 过 语法 也 
许 十 分 繁杂 并 且 难 以 理解 。 e 


18 


1.1 解析 技术 


解析 技术 不 再 是 一 种 神秘 的 艺术 ， 自 从 上 世纪 70 年 代 ，Aho, Ullman, 
Knuth 以 及 其 他 科学 家 为 解析 技术 黄 定 的 坚实 的 理论 基础 之 后 。 解 析 技 术 也 
不 是 一 门 数 学 学 科 ; 一 个 解析 器 的 内 部 工作 过 程 可 以 是 可 视 的 、 多 理解 的 
以 及 可 修改 的 ， 用 以 适应 应 用 程序 ， 不 再 仅仅 是 简单 的 字符 串 剪 切 粘贴 。 


一 位 数学 家 的 世界 观 和 一 位 计算 机 科学 家 的 世界 观 差 距 是 相当 巨大 的 。 在 
数学 家 眼中 所 有 的 结构 都 是 静态 的 : 它们 一 直 是 静态 的 并 且 将 永远 都 是 静 
A]; 只 不 过 我 们 还 没有 发 现 全 部 的 结构 而 已 。 而 计算 机 科学 家 则 倾向 
(并 且 很 着 迷 ) 不 断 的 创造 、 组 合 、 分 离 和 破坏 结构 INARA A 
数学 家 手 里 ，Peano 公 理 创 建 整 数 时 没有 提 及 到 时 间 ， 但 是 如 果 一 个 计算 
机 科学 家 使 用 这 个 公理 来 实现 整数 加 法 ， 那 么 他 将 发 现 这 在 计算 机 中 是 一 
个 非常 缓慢 的 执行 过 程 ， 所 以 计算 机 科学 家 就 会 去 寻找 更 加 有 效率 的 方 
法 。 在 这 方面 ， 计 算 机 科学 家 和 物理 学 家 和 化 学 家 拥有 更 多 共同 点 ; 和 他 
们 一 样 ， 计 算 机 科学 家 必须 有 数学 的 几 个 分 支 的 坚实 理论 基础 ， 但 同时 计 
算 机 科学 家 也 很 希望 (而且 经 常 迫 使 ) 数学 家 将 一 些 理论 的 主导 权 交 给 他 
们 ， 这 点 也 和 物理 学 家 和 化 学 家 一 样 。 没 有 严谨 的 数学 理论 的 支持 ， 所 有 
的 科学 都 将 不 复 存在 ， 但 就 像 一 栋 大 楼 一 样 ， 并 非 其 中 的 居民 都 需要 了 解 
这 栋 大 楼 的 框架 和 梁 柱 。 为 各 领域 的 专家 们 分 化 一 些 特殊 的 知识 点 的 细 
节 ， 可 以 减少 复杂 的 脑力 劳动 ， 这 是 计算 机 科学 家 们 正在 做 的 事情 。 


本 书 是 为 这 样 的 人 准备 的 : 需要 做 解析 工作 的 人 : 解析 器 作者 、 语 言 学 
家 、 数 据 库 接口 作者 、 想 要 测试 他 们 各 自 研究 对 象 的 语法 的 地 理学 家 或 音 
乐 家 、 等 等 。 我 们 需要 读者 有 良好 的 可 视 化 能 力 ， 一 些 编程 经 验 以 及 跟 进 
不 太 繁 琐 的 例子 的 兴趣 和 耐心 ; 了 解 一 只 袋鼠 最 好 的 方式 莫 过 于 亲眼 去 看 
它 是 如 何 跳跃 的 了 。 我 们 对 流行 的 解析 技术 张 开 怀 抱 ， 同 时 我 们 也 不 会 排 
太一 些 奇怪 的 技术 而 只 关注 它们 的 理论 知识 : 这 些 技术 往往 能 为 读者 打开 
一 扇 新 的 大 门 。 


1.1 解析 技术 
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1.2 使 用 方法 


这 本 书 的 读者 至 少 可 以 分 为 三 个 层次 。 感 兴趣 的 非 计算 机 科学 家 可 以 把 这 
本 书 当 作 “ 语 法 和 解析 的 故事 书 ”; 他 们 可 以 跳 过 解释 算法 的 细节 : 只 了 解 首 
次 提 到 某 个 算法 时 的 概要 介绍 。 计 算 机 科学 家 在 研究 各 种 算法 时 将 会 发 现 
很 多 技术 上 的 细节 。 我 们 为 专家 们 提供 了 超过 1700 个 项 目的 系统 参考 文 
献 。 本 书 的 付 印 版 本 只 包含 了 书 中 有 引用 的 文献 的 参考 目录 ; 完整 的 参考 
目录 收录 在 本 书 的 网 站 上 。 付 印 版 的 全 部 参考 文献 和 网 站 上 将 近 三 分 之 二 
的 文献 ， 都 有 注解 ; 这 些 注解 或 者 说 摘要 ， 与 文中 引用 的 内 容 无 关 ， 而 是 
文献 的 简要 说 明 ， 为 了 帮助 读者 判断 这 个 文献 是 否 值 得 一 读 。 


本 书 给 出 了 一 些 无 法 运行 的 算法 ， 除 了 17.3 中 上 下 文 无 关 的 解析 器 。 让 程 
序 员 能 实现 并 准确 运行 的 解析 算法 公式 ， 需 要 相当 大 的 支持 机 制 ， 而 这 不 
在 本 书 研究 的 范围 之 内 并 且 我 们 也 没有 足够 的 知识 来 为 读者 进行 深入 讲 
解 。 本 书 也 给 出 了 在 大 多 数 编译 器 构造 书籍 中 多 次 介绍 的 算法 。 而 那些 不 
大 为 人 所 知 的 算法 ， 则 在 原 书 中 有 详细 介绍 ， 第 18 章 中 列举 了 这 些 书 籍 。 


1.3 内 容 概要 


由 于 解析 最 关键 的 就 是 句子 和 语法 ， 而 语法 本 身 又 非常 的 复杂 ， 所 以 第 2 章 
我 们 将 对 语法 进行 详细 的 讲解 。 第 3 章 探 讨 了 解析 背后 的 原理 ， 并 给 出 了 解 
析 方 法 的 分 类 。 总 之 ， 解 析 技 术 可 以 分 为 自 顶 向 下 (top-down) 或 自 底 向 
上 (bottom-up) 两 种 ， 或 者 是 定向 (directional) 和 非 定 向 (non-directional) 两 
种 ; 定向 法 又 可 以 细 分 为 确定 性 (deterministic) 和 非 确定 性 (non- 
deterministic) 的 。 这 就 决定 了 和 紧 接着 后 面 几 章 的 内 容 的 主体 。 


第 4 章 我 们 讲解 非 定 向 法 ， 包 括 Unger 和 CYK。 第 5 章 介 绍 有 限 状 态 自 动机 

(finite-state automata) ， 为 后 面 需要 的 章节 做 一 个 过 渡 。 第 6 到 10 章 介 
绍 定向 法 ， 如 下 。 第 6 章 涵盖 了 非 确定 性 的 自 顶 向 下 解析 器 (向 下 递归 ， 
Definite Clause Grammars) ， 第 7 章 涵 盖 了 非 确定 性 的 自 底 向 上 解析 器 

(Earley) 。 第 8 章 和 第 9 章 介 绍 确定 性 方法 (第 8 章 介绍 自 顶 向 下 法 : 各 种 
形式 的 LL。 第 9 章 介绍 自 底 向 上 法 : LR). 。 第 10 章 涵盖 非 规 范 (non- 
canonical) 的 解析 器 ， 以 一 种 不 太 规范 的 自 顶 向 下 或 自 底 向 上 的 方法 来 确 
定 解析 树 的 节点 的 解析 器 (例如 left-corner) 。 第 11 章 则 介绍 了 类 似 上 一 章 
中 的 算法 的 非 确 定性 版 本 (比如 GLR 解 析 器 ) 。 


接 下 来 的 四 章 内 容 ， 不 大 符 合 上 述 的 框架 。 第 12 章 介绍 了 最 新 的 用 于 解析 
某 一 语言 中 完整 句子 的 子 字 符 串 技术 ， 包 括 确定 性 和 非 确 定性 的 。 第 13 章 
介绍 了 一 种 正在 发 展 中 的 技术 ， 这 种 技术 将 解析 视 为 贯穿 有 限 状 态 机 的 上 
下 文 无 关 语 法 。 第 14 章 介绍 了 几 个 并 行 解析 算法 ， 而 第 15 章 则 解释 了 几 种 
关于 非 Chomsky 文 法 系统 的 建议 以 及 他 们 的 解析 器 。 而 这 些 本 身 就 完成 了 
解析 方法 。 


第 16 章 介绍 了 一 些 错误 处 理 方 法 ， 第 17 章 介绍 了 在 写作 和 使 用 中 比较 实用 
的 解析 器 。 


1.4 参考 文献 


第 18 章 是 参考 目录 部 分 ， 在 付 印 版 和 更 加 庞大 的 电子 版 中 都 是 这 样 。 它 是 
本 书 主体 部 分 的 必要 补充 ， 也 是 容易 获取 的 一 个 方式 。 参 考 文献 被 命名 划 
分 为 几 个 小 节 ， 每 一 节 都 和 解析 有 一 定 的 关系 ， 而 不 是 通常 的 按照 作者 名 
字 依 次 排列 ; 付 印 版 有 25 个 小 节 而 电子 版 有 30 个 小 节 。 每 个 小 节 内 ， 文 献 
的 排列 按照 出 版 时 间 先 后 的 顺序 。 书 尾 用 文献 的 作者 索引 代替 了 通常 的 字 
母 索引 。 文 中 方 括号 内 的 数字 都 指向 一 本 参考 文献 。 例 如 Earley 写 的 关于 
Earley 解 析 器 的 书 在 文中 表示 为 [14]， 那 么 在 578 页 (原著 的 页 数 ) 被 标记 
为 14 的 那 本 书 就 是 你 要 找 的 了 。 


2.1 语言 ， 一 个 无 限 的 集合 


在 计算 机 设备 中 ， 常 规 来 说 ，“ 语 法 "是 用 来 “描述 "一 门 “ 语 言 " 的 。 然 而 单 从 
字面 上 来 看 的 话 ， 这 样 理 解 却 会 带 来 一 些 误解 。 计 算 机 高 手 和 初学 者 在 看 
待 这 个 问题 上 有 一 些 细 微 的 差别 ， 有 具体 在 三 个 方面 体现 。 为 了 建立 和 划 定 
我 们 探讨 的 界限 和 范围 ， 我 们 应 该 从 刚才 说 到 的 三 条 差异 来 介绍 ， 就 从 第 
三 条 开始 吧 ! 


2.1.1 语言 


对 大 多 数 人 类 而 言 ， 语 言 ， 首 要 的 作用 是 用 来 进行 交流 和 思想 沟通 的 。 当 
人 们 在 激烈 的 辩论 中 ， 这 个 作用 尤为 明显 ， 不 过 当然 了 这 是 一 种 无 意识 行 
为 。 人 们 沟通 交流 ， 是 指 传递 信息 ， 更 准确 的 说 是 通过 空气 振动 传递 声音 
信息 或 者 是 在 纸 面 上 书写 文字 信息 。 我 们 仔细 看 一 下 语言 文字 (话语 ) ， 
就 是 由 一 堆 单 词组 成 的 句子 ， 或 者 说 ， 就 是 由 一 堆 写 在 纸 上 的 符号 组 成 的 
信息 。 语 言 的 组 成 上 ， 总 体 来 说 有 三 个 层面 的 区 别 。 各 种 语言 之 间 ， 有 的 
存在 微小 的 差异 ， 就 好 比 英语 和 爱尔兰 语 ; 但 有 的 也 存在 巨大 的 差别 ， 就 
好 比 英 语 和 汉语 。 但 是 对 单词 的 使 用 上 却 往 往 有 这 巨大 的 不 同 ， 甚 至 对 使 
用 同一 种 的 人 来 说 都 是 如 此 ， 比 如 在 德语 中 “un cheval”" 和 "ein Pferd” 都 表 
示 "“ 一 匹 马 ”。 而 儿子 结构 的 差异 很 容易 被 忽视 ， 例 如 荷兰 人 中 ， 有 的 人 会 有 
类 似 莎士比亚 的 语言 习惯 像 “Ik geloof je niet?， 如 此 来 表达 "我 不 相信 你 (| 
believe you not) ”， 而 另 一 个 地 区 的 荷兰 人 则 会 有 类 似 甸 牙 利 的 "Penzem 
Van” 的 语言 习惯 ， 像 “Money-my is” 表 达 的 是 英语 中 的 “我 有 钱 (| have 
money ) ” 


但 是 ， 计 算 机 研究 学 者 却 有 一 个 非常 抽象 的 角度 来 看 待 这 一 切 。 确 实 一 种 
语言 总 是 拥有 着 大 量 的 句子 ， 并 且 这 些 句 子 都 有 着 一 种 特殊 结构 ; 我 们 不 
必 关 心 这 些 句子 是 不 是 能 传达 某 些 信息 ， 但 句子 们 所 具有 的 结构 实 实在 在 
的 含有 了 茶 种 意义 。 而 句子 中 包含 的 单词 ， 这 些 在 计算 机 中 被 称 为 “ 令 牌 
(token) ”的 东西 ， 每 一 个 都 包含 了 一 些 特 殊 的 信息 ， 而 这 些 信息 汇 总 起 
来 ， 就 是 这 个 句子 所 被 希望 表达 的 意义 。 但 是 在 自然 语言 中 ， 词 语 是 具有 
意义 的 不 能 再 分 的 最 小 单位 了 ， 即 便 一 个 单词 所 包含 的 意义 可 能 很 多 。 不 
过 ， 单 词 不 能 被 更 小 的 单位 来 表达 对 计算 机 研究 学 者 来 说 并 不 是 问题 。 通 
过 可 伸缩 解决 方案 (telescoping solutions) 以 及 多 层 技术 (multi-level 
techniques) ， 他 们 很 容易 的 就 能 证 明 ， 如 果 一 个 词语 确实 含有 某 种 结 
构 ， 那 么 这 个 词 就 属于 另外 一 种 语言 ， 一 种 把 字母 当 作 基础 令 牌 的 语言 。 


正式 语言 学 的 专家 ， 通 常 被 成 为 正式 的 语言 学 家 (formal-linguist) (用 以 
和 "正式 语言 学 家 "做 区 分 ， 这 两 者 间 的 不 同 就 留 着 读者 见仁见智 了 ) 再 次 以 
一 种 不 同 的 抽象 角度 来 看 待 语言 。 语 言 是 句子 的 “集合 "， 句子 是 “符号 "的 有 


序 集合 ; 这 就 是 说 : 如 果 一 句 话 没 有 意义 那 是 因为 没有 结构 ， 一 个 句子 是 
否 属于 某 种 语言 ， 就 看 他 的 结构 是 否 能 在 这 种 语言 下 产生 意义 。 符 号 的 唯 
一 属性 是 它 具有 的 标识 ;在 任何 语言 中 一 定 有 一 组 确定 数量 的 符号 集 ， 并 且 
这 一 数字 必须 有 限 ， 比 如 字母 表 。 比 如 ， 我 们 可 以 将 这 些 符号 写作 
a,b,C...， 或 者 加 , 字 , 口 ... 也 可 以 ， 只 有 数量 是 足够 的 就 行 。 词 语 的 顺序 表明 
了 ， 在 每 一 个 句子 中 词语 都 有 他 们 固定 的 位 置 ， 我 们 不 应 该 随意 更 改 这 些 
位 置 组 合 。 而 词语 集 则 是 把 所 有 不 同 的 词语 都 放 在 一 起 的 一 个 无 序 的 集 
合 。 这 个 无 序 集合 可 以 写 下 来 ， 通 过 把 所 包含 的 所 有 对 象 写 在 一 对 大 括号 
中 里 面 ( 就 是 这 个 位) 。 对 正式 的 语言 学 家 (formal-linguist) 来 说 ， 以 下 
是 一 种 语言 : ab,ab,ba ; 还 有 {a,aa,aaa,aaaa,.….} 也 是 一 种 语言 ， 后 者 所 涉 
及 到 的 符号 问题 QGEXE) 我 们 稍 后 再 说 。 根 据 计 算 机 科学 家 眼中 的 “句子 / 单 
词 ， 单 词 /字母 "之 间 的 对 应 关系 ， 正 式 的 语言 学 家 (formal-linguist) 也 把 
名 子 称 作 一 个 “词语 "， 所 以 就 会 出 现 “ab 这 个 甸子， 属于 {a,b,ab,bal} 这 个 语 


o 


w| 


现在 我 们 来 思考 一 下 这 种 巧妙 而 伟大 的 思想 的 含义 。 


对 计算 机 研究 学 者 来 说 ， 语 言 就 是 一 个 无 限 大 的 句子 的 集合 ， 这 些 句 子 由 
令 牌 按照 某 种 结构 组 成 ; 令 牌 和 特定 结构 通力 合作 最 终 表 达 了 句子 的 语 

义 ， 也 就 是 句子 的 “含义 ”。 变 成 语言 的 句子 结构 和 语义 都 是 全 新 的 ， 也 就 是 
在 现 有 的 结构 模式 中 所 没有 的 ， 而 研究 学 者 们 的 任务 就 是 提供 和 完善 他 

们 。 对 计算 机 研究 学 者 来 说 ，3+4x5 是 “个 位 数 运算 "的 一 个 句子 (“个 位 
数 " 则 是 为 了 保证 数字 是 一 个 有 限 的 符号 集 ) ; 这 个 算式 的 结构 可 以 这 样 展 
示 : (3+(4x5)) ; 而 这 个 算式 的 含义 就 是 23. 


即便 是 语言 学 家 (linguist) 也 不 得 不 承认 ， 语 言 是 所 有 可 能 有 关联 的 句子 
的 无 限 集合 ， 这 种 说 法 要 比 上 面 的 两 种 说 法 都 要 可 接受 的 多 。 每 一 个 句子 
由 在 现实 生活 中 有 明确 意义 的 单词 ， 按 照 结 构 化 的 方式 组 成 。 结 构 和 词语 
一 起 传达 出 了 一 句 话 的 意思 。 现 在 再 次 说 到 单词 是 由 字母 组 成 ， 这 些 字 母 
和 结构 一 起 传达 出 了 词语 的 意思 。 语 义 的 重点 、 和 现实 世界 的 关系 以 及 “名 
子 / 单 词 “ 单 词 /字母 "这 两 层 的 融合 ， 是 语言 学 家 (linguist) 的 领域 。“ 圆 在 
疯狂 的 旋转 "是 一 个 句子 ， 而 “ 圆 睡 的 发 红 ” 就 是 语无伦次 了 。 


形式 语言 学 家 (formal-linguist) 坚持 他 们 对 语言 的 看 法 ， 因 为 他 们 希望 在 
研究 语言 的 基本 性 质 同 时 领略 语言 的 原始 美 。 计 算 机 科学 家 坚持 着 自己 的 
观点 ， 因 为 他 们 想 要 一 种 清晰 、 易于 理解 和 明确 的 手段 ， 描 述 计 算 机 中 的 
对 象 以 及 语言 和 计算 机 之 间 的 通信 ， 他 们 严格 的 不 像 人 类 。 而 语言 学 家 
(linguist) 也 坚持 自己 的 看 法 ， 因 为 这 让 他 找到 了 和 一 种 看 似 杂 乱 无 章 并 
且 似乎 无 限 复 杂 的 语言 : 自然 语言 ， 之 间 的 紧密 关联 。 


2.1.2 语法 


每 一 个 学 习 过 外 语 的 人 都 知道 ， 语 法 就 是 一 本 充满 规则 和 教会 人 们 这 门 语 
言 的 示例 的 书 。 好 的 语法 总 是 会 仔细 区 分 “句子 /单词 "和 “单词 /字母 "的 层 
级 ， 前 者 通常 被 称 为 句法 或 句法 集 ， 后 者 通常 被 称 为 此 法 。 句 法 包括 一 些 
PLR » RAR “pour que 是 虚拟 语气 ， 而 parce que 就 不 是 ”。 词 法 也 包括 了 一 
些 规 则 比如 “英文 名 词 的 复数 形式 一 般 词尾 追加 -S， 除 了 单词 本 来 就 以 -S.- 
sh,-o,-ch 或 -X 结 尾 ， 这 些 单词 为 不 规则 复数 形式 ， 结 尾 追加 -es”。 


我 们 暂时 先 跳 过 计算 机 科学 家 看 待 语法 的 视线 ， 先 看 看 正式 语言 学 家 
(formal-linguist) 眼中 的 语法 。 正 式 语言 学 家 的 观点 是 抽象 的 同时 又 和 外 
行 的 看 法 很 相似 : 语法 是 任何 语言 的 确定 的 、 有 限 大 小 的 、 完 整 的 描述 ， 
即 甸子 的 集合 。 这 实际 上 是 学 院 派 的 语法 ， 只 是 去 掉 了 其 中 的 模糊 性 。 虽 
然 很 明显 这 一 定义 具有 充分 的 通用 性 ， 但 却 又 太 过 笼统 以 至 于 显得 很 无 
J) o C E48 — Edu iC T Se T SLE 89286] ^ ; 柏拉图 谈 到 这 定义 了 一 
个 集合 ， 但 是 我 们 却 没 有 办 法 创建 这 个 集合 或 度量 一 个 句子 是 否 属于 这 种 
语言 。This particular example, with its “could have been” does not worry 
the formal-linguist, but there are examples closer to his home that do.“1ra9 
超 长 的 小 数 部 分 是 一 个 最 长 的 块 "描述 了 一 种 语言 ， 这 种 语言 最 多 只 有 一 个 
单词 (这 个 单词 就 是 乱 七 八 粮 的 数字 ) ， 而 且 很 符合 定义 说 的 精确 、 有 限 
大 小 并 且 完 备 。 然 而 又 有 一 个 问题 ， 那 就 是 没 人 知道 这 个 词 完整 的 样子 : 
假设 即便 有 一 个 人 找到 了 一 堆 长 度 为 数 十 亿 的 数字 ， 在 这 后 面 却 任 然 还 有 
着 数 不 尽 的 数字 。 另 一 个 问题 就 是 ， 我 们 还 根本 无 法 知道 这 么 长 的 数字 是 
不 是 监 的 存在 。 很 可 能 就 是 一 个 人 在 不 停 的 发 现 T 的 小 数 ， 另 一 个 人 却 发 
现 了 越 来 越 长 的 小 数 仍然 没有 被 找到 。 关 于 T 的 小 数 的 全 面 展开 理论 也 许 
能 解释 这 些 问 题 ， 不 过 目前 这 个 理论 还 不 存在 。 


因为 一 些 这 样 或 那样 的 原因 ， 正 式 语 言 学 家 们 放弃 了 他 们 静止 的 柏拉图 式 
的 观点 ， 转 而 接受 了 另 一 个 更 有 建设 意义 的 ， 衍 生 语 法 : 衍生 语法 是 语言 
中 构建 句子 的 准确 且 固 定 大 小 的 诀窍 。 这 意味 着 ， 使 用 这 个 语法 就 一 定 可 
以 构建 语言 (动作 数量 有 限 ) 中 的 句子 ， 而 不 会 有 其 他 的 可 能 。 这 并 不 是 


说 ， 给 一 个 句子 ， 语 法 就 能 让 我 们 知道 这 个 句子 是 如 何 构 造 的 ， 只 是 说 我 
们 可 以 通过 语法 来 知道 。 这 些 语法 可 能 有 几 种 形式 ， 其 中 有 一 些 会 比 其 他 
更 具 便捷 性 。 


计算 机 科学 家 们 通常 会 赞同 这 个 的 观点 ， 而 且 还 有 一 个 附加 的 要 求 就 是 衍 
生 语 法 应 该 隐 含 一句 话 是 如 何 构造 的 。 


2.1.3 无 限 集 带 来 的 问题 


上 述 将 语言 定义 为 序号 序列 的 无 限 集 ， 以 及 将 语法 定义 为 构造 句子 的 配方 
AY SL 5h T RAS SARA PL : 


1. 一 个 有 限 的 配方 如 何 能 产生 无 限 的 甸子 集 呢 ? 


2. 如 果 一 个 句子 只 是 一 个 序列 而 没有 结构 ， 或 者 如 果 一 个 包子， 可 以 通过 
其 结构 推导 出 其 他 的 意义 ， 那 我 们 该 如 何 理解 这 个 句子 呢 ? 


这 两 个 问题 有 一 个 漫长 而 复杂 的 答案 ， 不 过 确实 是 有 答案 的 。 我 们 先 解决 
第 一 个 问题 ， 然 后 在 带 着 第 二 个 问题 去 阅读 本 书 的 主体 部 分 。 


2.1.3.1 有 限 描 述 的 无 限 集 


其 实 从 一 个 有 限 的 描述 中 得 到 一 个 无 限 集 ， 并 没有 什么 问题 : “所 有 正 整数 
集合 "是 一 个 非常 有 限 的 描述 ， 但 描述 的 却 是 一 个 无 限 集合 。 不 过 ， 还 是 有 
一 些 令 人 不 安 的 想法 ， 所 以 我 们 把 问题 换 一 个 说 法 : “所 有 的 语言 都 能 用 有 
限 的 描述 来 说 明 吗 9" 正如 上 文 暗示 的 ， 答 案 是 "不行 "， 不 过 证 据 却 不 是 无 
关 紧 要 的 。 实 际 上 是 非常 有 趣 并 且 有 名 气 的 ， 如 果 不 展 示 一 下 或 者 至 少 大 
致 的 介绍 一 下 ， 将 会 是 一 个 遗憾 。 


2.1.3.2 枚 举 描述 


证 明 是 基于 两 个 意见 和 一 个 技巧 之 上 的 。 第 一 个 意见 是 ， 描 述 是 可 以 列举 
的 并 且 有 一 个 数据 。 如 下 所 示 。 首 先 ， 找 出 全 部 大 小 为 1 的 ， 也 就 是 那些 上 
都 只 有 一 个 字母 的 ， 然 后 将 他 们 按 字 母 顺 序 排序 。 这 是 我 们 列表 的 开头 。 
基于 这 个 ， 实 际 上 我 们 在 接受 一 种 描述 ， 长 度 为 1 的 描述 可 能 是 0， 或 

27 (所 有 字母 + 空格 ) ， 或 者 95 (所 有 可 打印 的 ASCIl 字 符 ) 或 者 其 他 类 似 
的 ; 具体 是 什么 对 下 面 的 讲解 都 不 重要 。 


第 二 步 ， 我 们 找 出 长 度 为 2 的 并 将 他 们 按照 字母 顺序 排序 ， 然 后 将 他 们 放 在 
列表 中 的 第 二 块 ; 然后 是 长 度 为 3 的 ， 长 度 为 4 的 等 等 等 等 ， 都 这 样 做 。 每 
一 个 描述 都 这 样 在 列表 中 获得 一 个 位 置 。 例 如 “所 有 正 整数 的 集合 (the set 
of all positive integers) "这 个 描述 ， 集 合 大 小 为 32 个 字符 (美文 )， 不 算 
引号 。 若 要 查找 其 在 列表 中 的 位 置 ， 我 们 要 先 计 算 有 多 少 少 于 32 字 符 的 描 
述 ， 称 为 L。 然 后 我 们 必须 生成 所 有 长 度 为 32 的 描述 ， 对 他 们 进行 排序 ， 然 
后 确定 我 们 的 描述 在 其 中 的 位 置 ， 称 为 P， 然 后 把 L 和 P 加 起 来 。 这 肯定 会 
是 一 个 巨大 的 数字 1， 不 过 这 就 能 确保 我 们 的 描述 处 于 这 个 完整 定义 的 列表 
中 了 ; 见 图 Fig.2.1。 


{ descriptions of size | 


descriptions of size 2 


{ descriptions of size 3 


{ descriptions of size 31 


P descriptions of size 32 
“the set of all positive integers” 


Fig. 2.1. List of all descriptions of length 32 or less 


有 两 件 事情 应 该 指出 。 第 一 ， 只 是 根据 字母 列 出 全 部 描述 ， 而 不 指出 其 长 
RER RRE E le A in URRAUR ERA A 
的 描述 ， 将 会 在 列表 中 获取 一 个 位 置 。 第 二 ， 其 实 没有 必要 列 出 全 部 的 描 
述 。 这 只 是 一 个 思想 实验 ， 使 我 们 在 无 法 亲自 检测 结构 的 情况 下 ， 能 有 一 
个 方式 来 检测 一 个 行为 体系 并 得 出 结论 。 

KI? f| cb ACE HRB MI ; 不 过 这 对 我 们 的 论点 来 说 是 无 关 紧 要 
的 。 重 点 是 有 用 的 描述 都 在 列表 中 ， 以 上 描述 能 确保 这 一 点 。 


id 一 些 计 算 表明 ， 在 ASCII-128 假 设 下 ， 这 个 数字 是 248 17168 89636 


37891 49073 14874 06454 89259 38844 52556 26245 57755 89193 
30291， 或 者 大 致 是 2.5x 106' . o 


2.1.3.3 语言 ， 无 限 的 比特 串 


我 们 知道 ， 在 语言 中 单词 (句子 ) 被 视 为 一 组 有 限 的 符号 集 ; 这 个 集合 被 
称 为 “字母 表 ”。 我 们 假设 字母 表 中 的 字母 是 有 序 的 。 那 么 语言 中 的 单词 也 是 
有 序 的 。 我 们 用 字母 > 来 表示 字母 表 。 


现在 最 简单 的 语言 就 是 ， 使 用 字母 表 > 中 的 字母 组 成 了 所 有 单词 的 语言 。 通 
FAR = {a,b}， ”我 们 获得 了 一 门 语 言 {, a, b, aa, ab, ba, bb, aaa,... 
}。 我 们 应 该 把 这 个 语言 RAL ， 稍 后 再 说 为 什么 这 么 称呼 ; 暂时 这 只 是 一 
个 名 字 。 


上 面 用 标记 的 集合 ， 以 *{ , a "为 开头 ， 很 明显 的 一 个 结构 ; 这 个 语言 的 
第 一 个 单词 是 一 个 空 的 单词 ， 这 个 单 ? EM X7 
的 单词 构成 。 没 有 理由 拒绝 这 个 空 单词 的 到 来 ， 但 如 果 写 下 来 又 很 容易 被 
RAAF ， 所 以 我 们 把 这 个 空 单词 写成 (小 写 的 Z)， 不 理 皮 字母 表 。 所 以 ， 
> ={8, a, b, aa, ab, ba, bb, aaa, . . .}° 在 一 些 自然 语言 中 ， 动 词 “to 
be” 的 现在 时 态 就 是 一 个 空 单词 ， 赋予 | student" 这 个 句子 以 “| am a 
student” 的 意义 。 俄 语 和 项 伯 来 语 就 是 很 好 的 例子 





因为 字母 表 Y 中 的 符号 是 有 顺序 的 ， 我 们 可 以 列 出 语言 > 中 的 单词 ， 使 用 上 
一 节 中 说 到 的 方法 : 第 一 ， 将 所 有 大 小 为 0 的 单词 排序 ; 然后 大 小 为 1 的 单 
词 排序 ; 然后 后 面 依次 。 实 际 上 我 们 已 经 在 二 中 这 样 做 了 。 


BEL 有 一 个 有 趣 的 地 方 ， 就 是 所 有 使 用 字母 表 的 语言 ， 都 是 它 的 子 集 。 
这 意味 着 ， 在 5 的 基础 上 创建 一 门 不 那么 复杂 的 语言 ， 称 做 L， 那 我 们 就 能 
BAL 列表 中 的 所 有 单词 ， 然 后 在 属于 | 的 单词 上 做 一 个 标记 。 这 样 就 能 把 
L 中 的 全 部 单词 都 包括 了 ， 因 为 本 来 就 包括 了 所 有 可 能 属于 [的 单词 。 


假设 我 们 的 L 语 言 是 “一 组 相 比 于 B 集 ， 包含 更 多 A 集 的 单词 的 集合 ”上 就 是 
这 样 的 {a, aa, aab, aba, baa, ...} ° mI 列表 的 开头 部 分 就 是 下 面 这 样 
ay: 


£ 

a 

b 
aa 
ab 
ba 
bb 
aaa 
aab 
aba 
abb 
baa 
bab 
bba 
bbb 
v aaaa 


< 


x SAS 


给 定 一 个 排序 过 的 字母 表 ， 空 格 和 有 标记 的 部 分 就 完全 足够 识别 和 描述 一 
个 语言 了 。 为 了 方便 ， 我 们 将 空格 写作 0， 将 有 标记 的 写作 1， 就 像 计 算 机 
中 的 位 (bits) 一 样 ， 那 我 们 现在 就 可 以 把 L 写 成 L = 0101000111010001: - 
(ME = 1111111111117). 。 需 要 指出 的 是 这 适用 与 任何 语言 ， 比 
如 一 门 正 式 语言 L， 一 门 编程 语言 Java， 一 门 自然 语言 英语 。 在 英语 中 ， 像 
标记 为 “1” 这 样 的 是 非常 稀少 的 ， 因 为 几乎 没有 任何 一 个 任意 序列 的 单词 组 
合 会 是 一 个 有 意义 的 句子 ( 同 理 ， 没 有 任何 一 个 任意 序列 的 字母 组 合 是 一 
个 有 意义 的 单词 ， 取 决 于 我 们 怎么 处 理 “ 句 子 / 单 词 " 和 “单词 /字母 "这 两 个 层 
面 ) 。 


2.1.3.4 对 角 化 


上 一 节 将 无 限 位 字符 串 0101000111010001. :和 “一 组 相 比 于 B 集 ， 和 包含 更 
多 A 集 的 单词 的 集合 "这 个 描述 联系 在 一 起 。 同 样 ， 我 们 可 以 将 这 种 位 字符 
串 附 加 到 所 有 的 描述 上 。 有 些 描述 可 能 不 足以 产生 一 门 语言 ， 这 种 情况 下 
我 们 可 以 将 任意 无 限 位 字符 串 附 加 给 它 。 既 然 所 有 的 描述 都 可 以 有 一 个 单 
一 的 被 编号 的 列表 ， 那 么 我 们 就 有 了 下 面 的 图 : 


Description Language 


Description #1 000000100: - - 
Description #2 110010001 --- 
Description #3 011011010…: 
Description #4 110011010: -- 
Description #5 100000011 --- 


Description #6 111011011. 


左 侧 是 描述 ， 右 侧 是 描述 对 应 的 语言 。 但 是 现在 我 们 说 很 多 已 经 存在 的 语 
言 却 不 存在 于 上 述 列表 中 : 上 述 列表 离 完整 还 很 远 ， 虽 然 列 表 的 描述 是 很 
完善 了 。 为 了 证 明 这 点 ， 我 们 将 使 用 Cantor 的 对 角 化 过 程 
(*Diagonalverfahren") 。 


想象 一 下 ， 语 言 C = 100110.…:， 它 的 第 n 阶 位 并 不 等 于 描述 #n 中 描述 的 第 
n 阶 位 。 语 言 C 的 第 一 个 比特 位 为 1， 因 为 描述 #1 的 第 一 个 比特 位 是 0 ; 第 二 
位 是 0， 因 为 描述 #2 的 第 二 位 是 1， 等 等 。C 是 由 语言 字段 的 对 角 线 的 左上 
方 到 对 角 线 的 右 下 方 ， 然 后 复制 我 们 遇 到 的 每 一 个 位 的 反 向 位 组 成 。 这 就 
是 图 Fig 2.2 (a) 中 对 角 线 。 那 语言 C 就 不 能 存在 于 列表 中 ! 它 不 能 在 行 1 
中 ， 因 为 它 的 第 一 位 不 同 于 (应 该 说 ， 被 弄 得 不 同 ) 行 1 的 第 一 位 ， 而 且 通 
常 来 说 ， 它 也 不 能 在 行 n 中 ， 因 为 第 n 位 不 同 于 行 n 的 第 n 位 ， 通 过 定义 可 以 
得 出 。 


free 





(a) (b) (c) 


Fig. 2.2. “Diagonal” languages along n (a), n+ 10 (b), and 2n (c) 


所 以 ， 尽 管 我 们 已 经 详尽 无 遗 的 列举 了 所 有 可 能 的 有 限 描述 ， 那 也 至 少 会 
有 一 种 语言 的 描述 不 在 列表 中 。 但 实际 上 ， 有 更 多 的 语言 不 在 列表 中 。 例 
如 ， 构 造 一 个 语言 ， 它 的 第 n+10 位 于 描述 #n 的 第 n+10 位 不 同 。 这 个 语言 再 


次 不 存在 于 列表 中 因为 每 一 个 n>0 的 位 都 不 同 于 行 n 中 第 n+10 位 。 但 是 这 意 
味 着 1 到 9 位 没 起 作用 ， 可 以 任意 替代 ， 如 图 Fig 2.2 (b) 所 示 ; 这 将 生成 
另外 29 = 512 种 语言 ， 且 都 不 在 列表 种 。 而 且 我 们 能 做 的 更 好 1 假设 我 们 
构建 了 一 门 语言 ， 它 的 第 2n 位 与 描述 #(c) 的 第 2 n 位 不 同 。 明 显 它 也 不 
在 原 列表 中 ， 但 现在 每 一 个 基数 位 都 是 左 侧 未 指定 的 部 分 ， 而 且 可 以 随意 

Ep 这 使 得 我 们 可 以 自由 的 创建 无 限 数量 的 语言 ， 而 它们 都 没有 有 限 的 
ik; 见 图 Fig 2.2 中 的 斜 对 角 线 。 简 而 言 之 ， 对 于 每 一 种 可 以 描述 的 语言 
来 说 ， 还 有 更 多 的 不 可 描述 的 语言 。 


关于 对 角 化 技术 ， 在 理论 计算 机 科学 中 的 很 多 书 中 有 更 正式 的 讲解 ; 例如 
Rayward-Smith [393, pp. 5-6], 或 者 Sudkamp [397, Section 1.4] ° 


2.1.3.5 t% 


上 面 的 论证 展示 给 我 们 几 件 事情 。 第 一 ， 这 表明 了 把 语言 当 作 一 个 正式 对 
象 的 力量 。 虽 然 上 述 大 纲 明 显 还 需要 相当 大 的 扩 增 和 证 据 ， 来 证 明 其 资质 
(为 了 这 个 ， 却 仍 需 加 以 洪 清 ) 为 什么 上 述 定义 语言 C 的 解释 ， 本 身 不 在 
HRA AP ; 见 问 题 2.1， 这 让 我 们 能 深入 了 解 其 属性 ， 或 者 评估 其 属性 。 
第 二 ， 这 表明 我 们 只 能 描述 所 有 可 能 语言 的 很 微小 的 一 部 分 子 集 (甚至 都 
不 是 一 小 部 分 ) : 语言 的 数量 是 无 限 的 ， 且 远 远 超出 我 们 能 弄 清 的 范围 。 
第 三 ， 我 们 已 经 证 明 ， 虽 然 有 无 穷 多 的 描述 和 无 限 多 的 语言 ， 然 而 描述 和 


语言 的 范围 却 并 不 相等 ， 后 者 要 远大 于 前 者 。 这 些 无 穷 被 Cantor 称 为 RQ 和 
R11? 而 上 述 只 是 他 对 RQ < RR1 进 行 证 明 的 一 个 特殊 例子 。 


2.1.4 通过 有 限 集 描述 一 门 语言 


一 个 好 的 生成 一 组 对 象 的 方法 ， 是 先 创建 一 个 小 对 象 ， 然 后 制定 根据 现 有 
对 象 添加 新 对 象 的 规则 来 生成 一 组 完整 的 对 象 。* 有 两 个 偶数 ， 这 两 个 偶数 
相 加 得 到 的 数 也 是 偶数 "这 样 就 很 有 效 的 生成 了 所 有 的 偶数 的 集合 。 形式 主 
义 者 会 添加 一 个 说 明 “ 并 且 没 有 别 的 数 是 偶数 "， 不 过 我 们 都 理解 这 个 。 


假设 我 们 想 要 生成 所 有 人 名 的 枚 举 的 集合 ， 就 像 人 Tom，Dick 和 Harry” 这 
种 ， 集 合 里 面 除了 最 后 两 个 之 外 ， 其 他 都 用 过 号 分 隔 开 来 。 我 们 不 接 


受 重复 的 ， 比 如 *Grubb, Grubb 和 Burrowes” 是 可 以 的 。 虽 然 在 英语 中 这 不 
RAE AF > TRA RI RAC TARE 6) E" > AAEM RAT ALES 
一 一 人 名 枚 举 集 一 一 中 的 句子 。 这 个 简单 的 结构 是 : 


1. Tom 是 一 个 人 名 ，Dick 是 一 个 人 名 ，Harry 也 是 一 个 人 名 ; 

2. 一 个 人 名 就 是 一 个 句子 ; 

3. 一 个 句子 后 面 跟着 一 个 各 号 ， 然 后 后 面 跟着 一 个 是 句子 的 人 名 ; 

4. 在 枚 举 结 束 之 前 ， 如 果 和 句子 的 结尾 是 *， 人 名 ”， 那 用 “和 人 名 "来 替换 。 


虽然 这 样 说 对 于 读者 的 理解 很 管 作用 ， 但 是 却 有 几 个 错误 的 地 方 。 条 件 3 尤 
其 会 带 来 麻烦 。 例 如 ， 句 子 并 不 是 以 ， 人 名 ?结束 ， 而 是 以 上 ，Dick" 或 类 似 
的 名 字 结 束 ，“ 人 名 ”只 是 一 个 符号 用 以 代替 丨 是 的 名 字 ; 这 样 的 符号 不 能 在 
站 是 的 句子 中 出 现 而 且 在 结尾 处 的 必须 用 条 件 0 中 给 出 的 名 字 替 代 。 同 样 ， 
条 款 中 的 “名 子 " 是 一 个 符号 ， 指 代 丨 实 的 句子 。 所 以 这 里 涉及 到 两 种 符号 : 
出 现在 完备 句子 中 的 丨 实 符 号 ， 比 如 “Tom”，“Dick”"， 和 过 号 和 “和 ”; 还 有 中 
间 体 符号 ， 像 “句子 "和 “人 名 "这些 不 能 在 完备 句子 中 出 现 的 词 。 第 一 种 对 应 
前 文中 提 到 的 单词 或 令 牌 ; 它们 的 专业 术语 是 终结 符 (或 简称 终结 ) 。 这 
种 中 间 体 符号 被 称 为 非 终结 符 ， 一 个 很 平庸 的 术语 。 为 了 区 分 它们 ， 我 们 
将 终结 符 用 小 写字 母 表示 ， 非 终结 符 用 大 写字 母 表示 。 非 终结 符 被 称 为 
(语法 的 ) 变量 或 句法 的 类 ， 在 语言 学 语 境 上 。 


为 了 强调 按照 条 件 生 成 的 字符 ， 我 们 应 该 将 "X 就 是 Y" 替 换 成 人 应 该 用 X 替 
换 ”: 如 果 *tom" 是 人 名 (Name) 的 一 个 实例 ， 那 么 不 管 我 们 在 哪儿 看 到 人 
名 (Name) 我 们 就 可 以 将 之 缩小 范围 为 om”。 这 给 了 我 们 : 


1. AŽ (Name) 可 能 被 tom" 取 代 
人 名 (Name) 可 能 被 “dick" 取 代 
人 名 (Name) 可 能 被 "harry" 取 代 

2. 句子 (Sentence) 可 能 被 人 名 (Name) 取代 

3. 句子 (Sentence) 可 能 被 句子 (Sentence) ， 人 名 (Name) 取代 


4. 句子 (Sentence) 结尾 处 的 * 人 名 (Name) "必须 被 “和 人 名 
(Name) "取代 ， 在 人 名 (Name) 被 任何 替代 物 替代 之 前 


5 一 个 句子 只 有 当 它 不 在 包含 非 终 结 符 时 才能 结束 
6. 我 们 从 句子 (Sentence) 开始 替换 过 程 


条 件 0 到 3 说 明 替 代 物 ， 但 是 4 和 5 不 一 样 。 条 件 4 不 是 特定 于 此 语法 的 。 它 
基本 都 是 有 效 的 ， 而 且 是 我 们 这 个 游戏 (解析) 的 规则 之 一 。 条 件 5 告诉 我 
们 从 哪里 开始 生成 。 它 的 名 称 自然 而 然 的 被 称 为 起 始 符 ， 而 且 它 是 每 个 语 
法 都 要 求 有 的 。 


条 件 3 还 是 看 起 来 不 让 人 放心 ; 其 他 大 多 数 规则 都 写 着 “可 能 被 取代 ”， 而 这 
条 写 着 “必须 被 取代 ”， 并 且 它 是 指 “ 一 个 句子 的 结尾 ”"”。 其 他 规则 通过 替换 来 
生效 ， 但 是 问题 仍 在 ， 我 们 如 何 用 蔡 换 来 检测 一 个 句子 (Sentence) 的 结 
尾 。 这 个 问题 可 以 通过 在 结尾 处 添加 一 个 终止 符 来 解决 。 如 果 我 们 对 一 个 
非 终 结 符 做 了 终止 标记 ， 这 个 非 终 结 符 不 能 在 除了 从 ， 人 名 (Name) "€ 
换 为 “和 人 名 (Name) "处 之 外 使 用 ， 那 我 们 就 自动 执行 了 这 个 限制 一 除 
非 替 换 检 测 已 经 发 生 否 则 没有 句子 将 会 结束 。 为 了 简便 起 见 我 们 写作 
而 不 是 “可 能 被 替代 ”; 由 于 终结 符 和 非 终 结 符 现在 是 专业 术语 ， 所 以 我 们 把 
他 们 写成 打字 机 的 字样 。 > 之 前 的 部 分 称 为 左手 边 ， 之 后 的 部 分 称 为 右 
手边 。 这 就 成 了 图 Fig 2.3 中 的 样子 。 


> 








0. Name —> tom 
Name —> dick 
Name —> harry 
l. Sentence —> Name 
Sentence —> List End 
2: List —> Name 
List —> List , Name 
3. , Name End —> and Name 


4. thestart symbol is Sentence 


Fig. 2.3. A finite recipe for generating strings in the t, d & h language 


这 是 这 个 配方 的 简单 和 比较 精确 的 形式 ， 规 则 也 很 简洁 明了 : 由 起 始 符 开 
始 ， 持 续 替 换 过 程 直 到 没有 非 终结 符 剩 下 。 


T 引用 至 The Hobbit, by J.R.R. Tolkien, Allen and Unwin, 1961, p. 
311. 全 
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2.2 正式 语法 


上 述 的 配方 形式 ， 基 于 根据 规则 的 替换 ， 已 经 强大 到 足以 支撑 正式 语法 的 
基础 了 。 相 似 的 形式 ， 通 常 被 称 为 " 重 写 系 统 "， 在 数学 家 中 已 经 有 了 悠久 的 
历史 ， 而 且 在 公元 前 几 个 世纪 已 经 在 印度 被 使 用 了 (例如 ， 见 Bhate and 

Kak [411]) 。 图 Fig 2.3 第 一 次 被 广泛 研究 是 由 Chomsky[385] 做 的 。 他 的 研 
完成 果 成 为 了 正式 语言 、 解 析 器 和 相当 大 部 分 的 编译 器 构造 以 及 语言 学 的 
几乎 所 有 研究 和 进展 的 基础 。 


2.2.1 正式 语法 的 形式 主义 


由 于 正式 语言 是 数学 的 一 个 分 支 ， 所 以 这 一 领域 的 工作 是 在 一 个 特殊 符号 
下 完成 的 。 若 要 展示 一 些 他 的 韵味 ， 我 们 就 应 该 正式 定义 一 下 语法 ， 然 后 
解释 一 下 为 什么 这 样 就 描述 了 一 种 语法 ， 就 像 图 Fig 2.3 中 的 那个 一 样 。 形 
式 主义 的 使 用 是 必 不 可 少 的 ， 为 了 证 明 的 准确 性 等 ， 但 是 不 是 为 了 理解 其 
基本 原理 ; 在 这 展示 只 是 为 了 给 读者 一 个 印象 ， 或 者 说 跨 过 沟 窄 的 一 个 桥 
梁 o 

定义 2.1: 一 个 生成 语法 是 一 个 4 元 组 (VN,VT,R,S) ， 像 这 样 : 

(1) VN 和 VT 是 符号 的 有 限 集 ， 

(2)VN— VT=—, 

(3) R 是 一 个 有 序数 对 (PQ) ， 像 这 样 


(3a)P (VN VT) 和 


S 含 了 4 个 可 辨识 部 分 的 对 象 ; ANB N OE RSE 
终结 符 、 终 结 符 、 规 则 和 起 始 符 。 上 述 定义 没有 说 明 这 点 所 以 这 需要 老师 
来 解释 。 非 终结 符 集 用 VN 来 表示 ， 终 结 符 集 用 VT 来 表示 。 对 我 们 的 语法 来 
说 ， 我 们 就 有 
VN ={A4 * IF * FL & > 4A} ({Name, Sentence, List, End}) 
VT = (tom, dick, harry, ,, and} 

(注意 ， 终 止 符 的 那个 集合 ) 


VN 和 VT (2) 的 交集 必须 是 空 集 ， 表示 。 所 以 非 终结 符 
集 和 终结 符 集 不 可 能 有 公共 元 素 ， 这 是 可 以 理解 的 。 


尽 是 所 有 规则 (3) 的 集合 ，P 和 Q 分 别 是 放 左 侧 和 放 右 侧 的 内 容 。 每 一 个 己 
必须 包含 一 个 或 多 个 非 终结 符 和 终结 符 的 序列 ， 每 一 个 Q 必 须 包 含 零 个 或 
多 个 非 终 结 符 和 终结 符 的 序列 。 对 我 们 的 语法 来 说 ， 我 们 就 有 : 


R = ((Name, tom), (Name, dick), (Name, harry),(Sentence, Name), 
(Sentence, List End), (List, Name),(List, List , Name), (, Name End, 
and Name)} 

Fx Š’ AATA o 

起 始 符 S 必 须 是 VN 里 面 的 元 素 ， 也 就 是 说 必须 是 非 终结 符 : 

S= Sentence 

我 们 的 领域 在 这 里 就 结束 了 ， 后 面 是 语言 学 的 领域 。 简 言 之 ， 数 学 上 的 正 
是 语言 就 是 一 门 语言 ， 一 门 必 学 的 语言 ; 它 让 表达 “是 什么 ”和 “怎么 做 ? 变 得 


非常 简单 ， 但 是 关于 “为 什么 ” 却 给 了 很 少 的 说 明 。 把 这 本 书 当 作 一 个 翻译 和 
一 个 注释 。 


2.2.2 通过 正式 语法 生成 句子 


图 Fig 2.3 中 的 语法 ， 就 是 所 谓 的 我 们 的 t,d&h 短语 结构 语法 (通常 缩写 为 
PS 语法 ) 。 还 有 一 个 更 紧凑 的 形式 ， 左 侧 相 同 的 ， 对 应 的 右 侧 写 在 一 起 用 
坚 线 中 隔 开 。 这 条 坚 线 只 是 一 种 形式 ， a a 可 以 读 作 "或 其 


他 ”。 右 侧 被 坚 线 分 隔 开 的 ， 也 被 叫做 备 选 这 种 更 简洁 的 形式 下 ， 我 们 
的 语法 变 成 了 : 

0. Name 一 tom | dick | harry 

(m Sentence, 一 Name | List End 

2: List 一 Name | Name , List 

3. , Name End —> and Name 


带 有 下 角 标 s 的 非 终结 符 成 为 了 起 始 符 。【〈 下 角 标 决定 了 起 始 符 ， 而 不 是 规 
则 ) 

现在 让 我 们 用 这 个 语法 来 生成 我 们 的 初始 例子 ， 只 使 用 根据 上 述 规 则 的 替 
换 方式 。 我 们 得 到 了 以 下 连续 形式 的 句子 : 


Intermediate form Rule used Explanation 
Sentence the start symbol 
List End Sentence 一 List End rule 1 

Name , List End List — Name , List rule 2 

Name , Name , List End List — Name , List rule 2 

Name , Name , Name End List — Name rule 2 

Name , Name and Name , Name End 一 and Name rule 3 

tom , dick and harry rule 0, three times 


中 间 形 式 (intermediate forms ) 被 称 为 句子 形式 。 如 果 一 个 句子 形式 不 包 
bob > ABE MRA A —4 8] FH LAF ARIES SA-—HSIT— 
行 的 过 渡 被 称 为 生成 步骤 ， 而 其 规则 被 称 为 生成 规则 ， 原 因 很 明显 。 


生成 过 程 可 以 更 加 直观 ， 通 过 使 用 "图 标 ” 在 对 应 符号 之 间 画 一 条 连接 线 。 一 
个 图 就 是 一 个 节点 集合 ， 和 一 组 边 连 接 起 来 的 。 一 个 节点 可 以 认为 是 纸 上 
的 一 个 点 ， 一 条 边 是 一 条 线 ， 每 条 线 连 着 两 个 点 ; 一 个 点 可 能 是 多 条 线 的 
结束 点 。 图 中 的 节点 通常 都 是 被 “标记 "的 ， 也 就 是 说 它们 都 有 名 字 ， 这 样 就 


可 以 很 方便 的 在 纸 上 画 出 写 着 它们 名 字 的 小 圈 来 代替 这 些 点 。 如 果 这 些 
是 有 箭头 的 ， 那 这 个 图 就 是 有 方向 的 ; 如 果 这 些 边 只 是 线条 ， 那 这 个 图 就 
是 无 方向 的 。 几 乎 所 有 在 解析 技术 中 使 用 的 图 都 是 有 方向 的 。 


& 


图 标 对 应 上 述 生 成 过 程 见 图 Fig 2.4。 这 种 图 被 称 为 生成 树 或 者 句法 树 ， 描 
述 了 最 终 句 子 的 句法 结构 (在 给 定 的 语法 中 ) 。 我 们 看 到 的 生成 图 通常 是 
向 下 的 ， 但 偶尔 我 们 也 会 看 到 一 些 星 型 结构 ， 一 般 是 由 重 写 了 一 组 符号 导 
致 。 


在 图 中 的 一 个 循环 就 是 一 个 路 劲 ， 从 节点 N 顺 着 箭头 一 直 在 回 到 节点 N。 而 
生成 树 中 是 不 允许 有 环 的 ; 如 下 所 示 。 要 得 到 一 个 环 ， 我 们 就 需要 在 生成 
树 中 有 一 个 非 终结 符 节点 N， 且 N 已 经 有 了 一 个 直接 或 间接 指向 N 的 子 节 
点 。 但 由 于 生成 过 程 总 会 产生 节点 的 副本 ， 所 以 他 布 轧 那个 生成 已 经 存在 
的 节点 。 因 此 一 个 生成 树 是 “ 非 循环 "的 ; 有 向 无 环 树 被 称 为 dags。 


| Sentence | 














Fig. 2.4. Production graph for a sentence 


明显 不 可 能 让 语法 生成 tom ，dick，harry， 任 何 试 图 生成 多 个 人 名 的 企图 
都 会 带 来 结束 ， 而 摆脱 它 〈 我 们 也 必须 摆脱 ， 因 为 这 是 一 个 非 终结 符 ) 的 
唯一 办 法 就 是 把 第 3 条 规则 吸收 进来 ， 而 这 会 产生 一 个 “和 ”。 神奇 的 是 ， 在 


一 个 只 使 用 "可 能 被 替换 ?的 系统 中 我 们 成 功 的 实施 了 "必须 替换 "这 一 概念 ; 


仔细 看 一 下 ， 我 们 就 会 发 现 ， 我 们 将 “必须 替换 "分 成 了 “可 能 替换 * 和 "必须 不 
能 是 一 个 非 终 结 符 "。 


除了 我 们 的 标准 例子 ， 语 法 当然 还 会 生成 一 些 其 他 的 句子 ; 例如 
harry and tom harry tom, tom, tom and tom 


以 及 其 他 更 多 的 。 一 个 决绝 和 鲁莽 的 尝试 ， 生 成 没有 “和 "的 不 正确 的 形式 将 
会 让 我 们 得 到 这 样 的 句子 形式 ， 像 


tom, dick, harry End 


这 样 的 ， 不 是 句子 的 句子 形式 ， 而 其 没有 生成 规则 适用 于 它们 。 这 种 形式 
被 称 为 死胡同 。 就 像 生成 规则 中 的 右 箭头 表明 的 一 样 ， 在 相反 的 方向 上 规 
则 可 能 就 不 适用 了 。 


2.2.3 正式 语法 的 表达 力量 


正式 语法 的 主要 属性 就 是 它 有 生成 规则 ， 可 用 于 重 写 部 分 句子 形式 (= 正在 
构建 的 句子 ) ， 和 产生 所 有 句子 形式 的 起 始 符 。 在 生成 规则 中 我 们 发 现 有 
终结 符 和 非 终结 符 ; 而 在 完整 的 句子 中 只 有 终结 符 。 这 大 概 就 是 : 剩 下 的 
部 分 就 看 语法 作家 和 身子 创造 者 的 创造 力 了 。 


这 是 一 个 令 人 印象 深刻 的 简洁 的 框架 ， 然 后 就 马上 有 了 一 个 问题 : 这 就 足 
够 了 吗 ? 这 很 难说 ， 但 是 如 果 这 还 不 是 最 好 的 ， 那 我 们 暂时 也 没有 更 好 的 
表达 形式 了 。 听 起 来 可 能 有 点 奇怪 ， 所 有 其 他 人 们 已 知 的 生成 集合 ， 都 补 
证 明 相同 或 甚至 不 那么 强大 ， 比 起 短语 结构 语法 。 明 显 生成 一 个 集合 的 方 
法 ， 当 然 最 简单 的 是 写 一 个 程序 来 生成 ， 不 过 这 也 证 明了 所 有 可 以 用 程序 
生成 的 集合 都 可 以 用 短语 结构 语法 来 生成 。 其 至 还 有 一 些 神秘 的 方法 ， 但 
最 终 都 被 证 明 不 够 具有 表现 力 。 另 一 方面 ， 也 没有 证 据 能 表明 还 存在 更 强 
大 的 方法 。 但 鉴于 许多 完全 不 同 的 方法 最 后 都 由 于 相同 的 阻碍 而 停止 ， 所 
以 几乎 不 可 能 1 在 找到 一 个 更 强大 的 方法 了 。 见 例子 Rev6sz [394, pp 100- 
102]. 


作为 表现 力 的 另外 一 个 例子 ， 我 们 应 该 谈 谈 Manhattan 龟 的 运动 的 语法 。 

Manhattan 龟 只 能 在 平面 上 运动 ， 且 只 能 往 东 南西 北方 向 运动 ， 每 次 运动 

距离 为 一 个 格子 。 图 Fig 2.5 给 出 了 所 有 可 以 回 到 原点 的 循环 路 劲 。 根 据 第 2 
条 规则 ， 应 该 说 明 ， 许 多 作者 需要 在 左 侧 至 少 有 一 个 非 终结 符 的 符号 。 这 
条 规则 总 是 可 以 强制 执行 通过 添加 新 的 非 终结 符 。 


2.2.3 正式 语法 的 表达 力量 


L. Move, 
2 north east 
north south 

north west 

east north 

east south 

east west 

south north 

south east 

south west 

west north 

west east 

west south 


Vibe bb bv bd vd 


north Move south | east Move west | € 


east north 
south north 
west north 
north east 
south east 
west east 
north south 
east south 
west south 
north west 
east west 
south west 


Fig. 2.5. Grammar for the movements of a Manhattan turtle 


简单 的 东南 西北 循环 路 劲 已 经 在 图 Fig 2.6 中 展示 (使 用 首 字母 缩写 ) o 


意 规则 (ec) 中 的 空 替代 ， 这 导致 了 上 图 中 





个 M 后 的 结束 。 


Fig. 2.6. How the erammar of Figure 2.5 produces a round trip 


1 





. Paul Vitany 指 出 如 果 科 学 家 说 神秘 东西 “几乎 不 可 


AG” 
AG 


has pointed 


out that if scientists call something “highly unlikely” they are still 


generally not willing to bet a year's salary on it, double or quit. e 
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2.3 语法 和 语言 的 Chomsky 层 次 结构 


图 Fig 2.3 和 2.5 中 的 语法 都 很 容易 理解 ， 而 事实 上 一 些 简 单 的 短语 结构 语法 
可 以 生成 复杂 的 集合 。 然 而 ， 对 于 任何 一 组 给 定 的 语法 通常 都 很 难说 是 简 
单 的 。 (虽然 语法 有 无 限 的 集合 ， 但 是 在 这 我 们 还 是 说 “一 个 给 定 集合 的 语 
法 ”。 通 过 一 个 集合 的 语法 ， 我 们 来 解释 任何 做 了 同样 工作 的 语法 ， 并 且 不 
是 过 于 复杂 的 。) 理论 上 说 如 果 一 个 集合 最 终 可 以 生成 (例如 ， 通 过 一 个 
程序 ) ， 那 么 它 就 可 以 通过 一 个 短语 结构 语法 来 生成 ， 不 过 理论 上 没有 表 
明 这 样 做 很 容易 ， 或 者 说 语 DEM 。 在 这 一 节 中 要 说 明 
Manhattan 急 的 路 劲 尽 量 写 出 其 语法 ， 这 些 路 劲 中 龟 总 是 不 能 从 起 始点 向 
ARTA o (问题 2.3) ° 


不 考虑 短语 结构 语法 带 来 的 智力 问题 ， 他 们 也 表现 出 了 基本 和 实际 的 问 
题 。 我 们 可 以 看 出 对 这 些 集合 没有 普 适 的 解析 算法 ， 而 所 有 已 知 的 特殊 算 
法 ， 要 么 效率 很 低 要 么 就 是 很 复杂 ; 见 3.4.2 节 。 


限制 短语 结构 语法 超出 控制 的 想法 ， 也 就 是 尽 可 能 的 保持 它们 的 生成 力 ， 
导致 了 语法 的 Chomsky 层 次 结构 。 这 种 层次 结构 分 为 了 四 种 类 型 的 语法 ， 
编号 为 0 到 3 ; 引入 第 5 种 类 型 ， 也 就 是 被 称 为 类 型 4 的 类 型 ， 是 有 意义 的 。 
0 型 语法 是 (无 限制 的 ) 短语 结构 语法 ， 我 们 已 经 看 到 了 它 的 例子 。 其 他 类 
ee 的 语法 规则 中 被 允许 的 形式 。 每 一 种 限制 条 件 都 带 来 
远 的 影响 ; 最 终 语法 逐渐 变 得 更 多 于 理解 和 掌握 ， 但 也 逐渐 不 那么 强 

幸运 的 是 ， 这 些 不 那么 强大 的 语法 依旧 十 分 有 用 ， 甚 至 实际 上 比 0 型 更 
有 用 。 


我 们 现在 先 按 顺序 来 看 看 前 三 个 类 型 ， 然 后 接着 在 看 看 琐碎 但 有 用 的 第 四 


个 类 型 。 


生成 0 型 语言 的 完全 不 同 的 方法 ， 例 Geffert[395] 。 


0 型 语法 的 特征 是 ， 它 包含 一 条 规则 是 可 能 将 任意 数目 (GE) 的 符号 转化 
为 任意 数目 (可 能 > 


GG 
ok 
A 
In. 
cx 
ES 
oh 
= 


,NE ---> and N 

如 上 三 个 符号 被 两 个 符号 取代 。 通 过 限制 这 种 自由 ， 我 们 引入 1 型 语法 。 奇 
怪 的 是 关于 1 型 语法 的 ， 直 觉 上 完全 不 同 的 两 个 定义 ， 却 很 容易 被 证 明 是 相 
同 的 。 

2.3.1.1 1 型 语法 的 两 个 类 型 

一 种 语法 是 1 型 单调 ， 如 果 它 不 包含 规则 ， 左 侧 的 符号 比 右 侧 符号 更 多 。 例 
如 ， 茜 止 这 个 规则 , NE ---> and N. 


一 种 语法 是 1 型 上 下 文 相关 ， 如 果 所 有 的 规则 都 是 上 下 文 相关 。 一 个 规则 是 
上 下 文 相关 ， 如 果 左 侧 只 有 一 个 符号 ( 非 终 结 符 ) 被 其 他 符号 替代 ， 然 后 
我 们 把 右 侧 的 符号 都 找到 且 没 有 损坏 且 按 顺序 放置 。 例 如 : 


Name Comma Name End ---> Name and Name End 
这 就 说 明 这 个 规则 
Comma ---> and 


可 能 适用 ， 如 果 左 侧 文 字 是 Name 而 右 侧 文字 是 Name End» ET x AAT 
受 影响 。 赫 代 者 必须 是 至 少 一 个 符号 长 。 这 意味 着 上 下 文 相关 语法 总 是 单 


生成 一 个 后 面 本 来 就 会 生成 的 符号 。 我 们 通过 将 结束 标记 纳入 最 右 侧 的 
字 来 避免 需要 删除 键 鼠 标记 : 


Name 一 tom | dick | harry 
Sentence, 一 Name | List 

List 一 EndName | Name , List 
, EndName —> and Name 


当 EndName 是 一 个 单独 的 符号 时 。 


这 就 是 它 的 一 个 上 下 文 相 关 语 法 。 


Name 一 tom | dick | harry 
Sentence, 一 Name | List 
List —> EndName 
| Name Comma List 
Comma EndName -—» and EndName contextis ... EndName 
and EndName| — and Name contextis and ... 
Comma —> , 


请 注意 ， 我 们 需要 一 个 额外 的 非 终 结 符 吉 号 来 产生 终结 符 ， 并 在 正确 的 上 
下 文中 。 


单调 语法 和 上 下 文 相关 语法 时 同样 强大 的 : 每 一 种 可 以 由 单调 语法 生成 的 
语言 ， 都 可 以 由 上 下 文 相关 语法 生成 ， 反 之 亦 然 。 但 它们 都 不 如 0 型 语法 强 
大 ， 也 就 是 说 ， 可 以 由 0 型 语法 可 以 生成 任何 一 种 1 型 语法 都 无 法 生成 的 语 
言 。 但 奇怪 的 是 没有 这 样 的 语言 被 人 们 所 知道 。 虽 然 0 型 语法 和 1 型 语法 的 
区 别 是 基础 层面 的 ， 而 且 不 是 Chomsky 先 生 一 时 兴起 的 ， 它 们 之 间 差 异 的 
语法 太 复杂 而 不 能 写 下 来 ; 而 只 能 证 明 这 差异 的 存在 (例如 Hopcroft and 
Ullman [391, pp. 183-184], 或 Révész [394, p. 98]) ° 


当然 任何 类 型 的 1 型 语法 都 属于 0 型 语法 ， 因 为 1 型 语法 是 在 0 型 语法 的 基础 
上 ， 增 加 了 一 些 限 制 条 件 推导 而 来 。 但 如 果 将 1 型 语法 也 称 为 0 型 语法 就 会 
引起 混乱 ; 就 像 把 猫 叫做 哺乳 动物 一 样 : 正确 但 不 精确 。 一 种 语法 是 按照 
最 小 适用 类 型 来 命名 的 (也 就 是 ， 最 高 类 型 数 ) 。 


我 们 可 以 看 到 语言 t,d&h， 先 由 0 型 语法 生成 ， 也 可 以 由 1 型 语法 生成 。 我 们 
应 当 也 能 知道 同样 还 有 2 型 和 3 型 语法 适用 ， 但 没有 4 型 语法 。 所 以 我 们 说 语 
言 t,d&h 是 一 种 3 型 语言 ， 经 过 限制 层 数 最 多 (最 简单 和 适合 ) 的 语法 之 
后 。 关 于 此 的 一 些 推论 : 一 个 n 型 语言 可 以 由 n 型 语法 或 更 强大 的 语法 生 


成 ， 但 不 能 由 比较 弱小 的 n+1 语 法 生成 ; 以 及 : 如 果 一 种 语言 是 由 n 型 语法 
生成 ， 那 并 不 意味 着 (更 弱小 的 ) n+1 型 语法 无 法 生成 它 。td&h 语 言 的 0 
型 语法 是 一 个 严格 的 例子 ， 而 只 是 为 了 演示 目的 。 


2.3.1.2 构建 一 个 1 型 语法 


1 型 语法 的 标准 例子 就 是 包含 相同 数目 的 a,b,c 的 集合 ， 按 照 以 下 顺序 : 


GG... d DD....D PE iot 
— 1 


n of them n of them n of them 


为 了 完整 起 见 ， 以 及 展示 1 型 语法 如 何 被 书写 出 来 ， 如 果 够 聪明 的 话 ， 我 们 
现在 应 该 得 出 这 个 玩具 语言 的 语法 。 从 最 简单 的 例子 开始 ， 我 们 有 了 以 下 
规则 : 


0、S ---> abc 


获得 了 S 的 一 个 实例 ， 我 们 可 能 会 想 要 在 开头 追加 更 多 的 a ; 如 果 我 们 想 要 
记 住 已 经 有 多 少 了 ， 那 同时 我 们 就 应 该 附加 一 点 东西 在 结尾 处 ， 而 且 不 能 
是 一 个 b 或 者 c。 我们 应 该 使 用 一 个 目前 未 知 的 符号 QQ。 追 加 后 的 规则 如 

下 : 


1、S --->aSQ 

如 果 我 们 用 该 规则 ， 例 如 ， 使 用 三 次 ， 我 们 就 得 到 下 列 句 子 形式 : 
aaabcQQ 

现在 ， 若 要 从 这 中 间 获 得 aaabbbccc， 每 一 个 Q 必 须 等 司 于 一 个 b 和 一 个 
c， 如 预期 ， 但 我 们 不 能 这 么 写 : 

Q ---> bc 

因为 这 会 导致 第 一 个 c 后 面 是 bp。 因此 ， 如 果 限 定 更 换 只 允许 在 左边 是 b 右 边 
是 c 的 情况 下 发 生 ， 那 上 述 规则 就 是 可 行 的 。 新 插入 的 bc 就 不 会 造成 影响 ， 
如 下 : 


2^ bQc ---> bbcc 


不 过 ， 我 们 不 能 应 用 此 规则 ， 因 为 通常 Q 是 在 c 的 右边 。 可 以 通过 允许 Q 向 
左 跳 过 一 个 c 来 纠正 : 


3^ cQ ---> Qc 
现在 ， 我 们 可 以 完成 我 们 的 推导 : 


aaabcQQ (3 times rule 1) 
aaabQcQ (rule 3) 
aaabbccQ (rule 2) 
aaabbcQc (rule 3) 
aaabbQcc (rule 3) 
aaabbbccce (rule 2) 


应 该 指出 的 是 ， 上 述 推导 只 显示 语法 能 生成 正确 的 字符 串 ， 读 者 需要 说 服 
自己 ， 语 法 不 会 生成 别 的 东西 或 不 正确 的 字符 囊 (问题 2.4) 。 
语法 总 结 为 了 图 Fig 2.7。 因 为 a3b3c3 的 推 到 图 已 经 相当 策 拟 ， 

l. S, — abc | aSQ 

2. bQc 一 bbcc 

3 cQ — Qc 


Fig. 2.7. Monotonic grammar for a"b" c" 


所 以 图 Fig 2.8 给 出 了 a2b2c2 的 推 到 图 o 





语法 是 单调 的 ， 因 此 属于 1 型 。 可 以 证 明 这 个 语言 不 符合 2 型 ; 见 2.7.1 节 。 


虽然 只 有 上 下 文 相 关 的 1 型 语法 拥有 被 称 为 上 下 文 相关 语法 (CS 语法 ) 的 
权利 ， 但 这 个 名 字 经 常 被 使 用 在 单调 1 型 语法 上 。 对 于 单调 语法 没有 标准 缩 
写 ， 但 MT 可 以 用 来 代替 。 


2.3.2 2 型 语法 


2 型 语法 被 称 为 上 下 文 无 关 语 法 (CF 语 法 ) ， 其 和 上 下 文 相关 语法 之 间 的 
关系 如 它们 的 名 字 所 示 。 上 下 文 无 关 语 法 和 上 下 文 相关 语法 是 相似 的 ， 只 
是 左 侧 和 右 侧 的 文字 必须 是 空缺 的 ( 空 的 ) 。 因 此 语法 可 能 只 包含 一 个 规 
则 ， 在 其 左 侧 只 有 一 个 非 终 结 符 。 语 法 示例 : 


0. Name 一 tom | dick | harry 
l. Sentence, 一 Name | List and Name 
2. List 一 Name , List | Name 


2.3.2.1 独立 生成 


由 于 左 侧 总 是 只 有 一 个 符号 ， 生 成 图 中 的 每 个 节点 具有 这 样 的 属性 ， 无 论 
其 生成 什么 都 独立 于 其 相 邻 节点 的 生成 : 非 终结 符 的 生成 周期 独立 于 其 上 
下 文 。 我 们 在 图 2.4，2.6，2.8 中 见 到 的 星 型 结构 不 可 能 发 生 在 上 下 文 无 关 
语法 中 ， 因 此 就 会 有 一 个 纯粹 的 树 形 结构 ， 其 被 称 为 生成 树 。 示 例如 图 
2.9 ° 





Sentence 








Fig. 2.9. Production tree for a context-free grammar 


由 于 左 侧 只 有 一 个 符号 ， 对 于 一 个 给 定 非 终结 符 的 所 有 右 侧 ， 可 以 放 在 同 
一 个 语法 规则 的 集合 中 (在 上 述 语法 中 我 们 已 经 做 了 ) ， 然 后 每 个 语法 规 
则 就 像 一 个 左 侧 的 定义 : 


e —* Sentence X5 7 4 andé 4 Name#) Name Xi, < List. 
e 一 个 List 是 Name 后 面 接着 一 个 a， 或 接着 List 或 是 Name. 


这 显示 了 上 下 文 无 关 语 法 构建 字符 囊 是 经 过 了 两 个 过 程 的 : 拼接 (“... 接 
着 ..”) 和 选择 ("要 么 ... 要 么 ..")。 除 了 这 些 过程 在 这 里 是 识别 机 制 ， 其 链接 
了 在 右 侧 使 用 的 非 终 结 符 的 名 字 和 定义 规则 (SUE m AD) 。 


在 这 章节 的 开头 ， 我 们 确定 了 一 门 语言 作为 字符 串 的 一 个 集合 ， 起 始 符号 
的 终结 符 的 生成 物 的 集合 。 独 立 生 成 物 的 属性 让 我 们 可 以 把 这 个 定义 扩展 
到 这 个 语法 的 任何 非 终 结 符 上 : 每 一 个 非 终 结 符 都 生成 一 个 集合 、 一 门 语 
言 ， 独 立 于 其 他 非 终结 符 生成 的 。 如 果 我 们 将 A 生 成 的 字符 串 集 合 写 
TEL(A) ， 而 且 A 有 两 种 可 选 的 生成 规则 ，A 一 ql8， 那 么 L(A) = L(a) 

L(B)* 代表 集合 的 并 集运 算 符 。 这 对 应 于 上 一 段 说 到 的 选择 。 如 果 qa 
由 PqR 三 个 字符 组 成 ， 我 们 就 有 L(a) =L(P) Lq) L(R)' 代表 字符 
囊 的 串联 运算 符 (实际 上 上 集合 中 的 字符 囊 ) 。 这 对 应 于 上 一 段 说 到 的 拼 
接 。 而 L(a) 中 的 a 是 终结 符 ， 属 于 集合 {a}。 语 言 中 包含 Ee 的 非 终 结 符 被 称 为 
空 。 也 可 以 说 "生成 空 ”。 


注意 ， 我 们 不 能 定义 图 Fig 2.7 中 QQ 的 语言 L(Q) : Q 本 身 不 能 生成 任何 有 意义 
的 东西 。 为 非 起 始 符号 定义 语言 只 能 在 2 型 语法 或 更 低级 的 语法 上 可 能 实 
现 ， 将 非 起 始 的 非 终结 符 廷 议 为 空 也 是 一 样 的 。 


有 关 独 立 生成 属性 就 是 北 归 的 概念 。 非 终结 符 A 是 北 归 的 ， 如 果 和 句子 形式 中 
的 这 个 人 可 以 生成 再 次 包含 A 的 东西 。 图 Fig 2.9 中 的 生成 物 开始 于 句子 形式 
的 Sentence， 其 使 用 了 规则 1.2 来 生成 List 和 Name。 下 一 步 很 可 能 是 用 
Name,List 来 蔡 换 List， 使 用 规则 2.1。 我 们 看 到 List 生 成 了 再 次 包含 List 的 东 
西 : 


Sentence ---> List and Name ---> Name , List and Name 


即 List 是 递归 的 ， 尤 其 是 ， 它 是 直接 递归 。 非 终结 符 A 在 A--->Bc, B--->dA 
中 是 间接 递归 的 ， 不 过 这 之 间 的 差异 并 没有 太 多 意义 。 


比 之 更 重要 的 是 List 是 右 递 归 的 : 一 个 非 终结 符 人 是 右 递归 的 ， 如 果 它 可 以 
在 右 侧 生成 包含 A 的 东西 ， 则 List 为 : 


List ---> Name , List 


同 理 ， 一 个 非 终 结 符 人 是 左 递 归 的 ， 如 果 它 可 以 在 左 侧 生成 包含 A 的 东西 : 
我 们 就 可 以 定义 


List ---> List , Name 


一 个 非 终 结 符 A 是 自 上 入 的 ， 有 这 样 一 个 定义 : 如 果 人 A 能 在 生成 一 个 ， 左 侧 
zt ous di] E PARAM AS o HAMM T RE aewtrAA-BRE 
时 生成 的 ; BERRA- ARKET ROGA o KRERFZ VI PIT LE ENG 
式 中 括号 的 使 用 : 

arith expression, 一 … | simple expression 

simple expression —> number | '(' arith expression ’)’ 
一 个 非 终 结 符 可 以 同时 时 左 递归 的 和 右 递归 的 ; SEE RAH o Ane 
>Ab|cA|d 就 是 一 个 例子 。 


如 果 一 个 语法 中 没有 非 终结 符 时 递归 的 ， 则 每 一 个 生成 步骤 使 用 一 个 非 终 
结 符 ， 因 为 这 个 非 终结 符 绝 不 会 再 次 出 现在 这 个 段 中 。 所 以 生成 过 程 不 可 
能 无 限 持续 ， 结 果 就 产生 了 一 个 有 限 的 语言 。 递 归 是 语法 生命 周期 所 必须 
的 。 


2.3.2.2 一 些 例子 


在 现实 世界 中 ， 很 多 事物 是 根据 其 他 事物 来 定义 的 。 上 下 文 无 关 语 法 是 一 
种 非常 简洁 的 方式 来 制定 这 种 相互 关系 。 一 个 最 浅显 的 例子 就 是 一 本 书 的 
组 成 ， 如 图 Fig 2.10 所 示 。 


Book, —> Preface ChapterSequence Conclusion 
Preface —> "PREFACE" ParagraphSequence 
ChapterSequence -—» Chapter | Chapter ChapterSequence 
Chapter —» "CHAPTER" Number ParagraphSequence 
ParagraphSequence —> Paragraph | Paragraph ParagraphSequence 
Paragraph 一 SentenceSequence 
SentenceSequence 一 
Conclusion —> "CONCLUSION" ParagraphSequence 


Fig. 2.10. A simple (and incomplete!) grammar of a book 


当然 这 是 关于 一 本 书 的 上 下 文 无 关 描 述 ， 所 以 人 们 也 可 以 期 待 其 生成 很 多 
ERS ET 3d 


PREFACE 

qwertyuiop 

CHAPTER V 

asdfghjkl 

zxcvbnm,. 

CHAPTER II 

qazwsxedcrfvtgb 

yhnujmikolp 

CONCLUSION 

All cats say blert when walking through walls. 


不 过 至 少 可 以 保证 结果 能 得 到 正确 的 结构 。 文 档 编制 和 文本 标记 系统 ， 
SGML 、HTML、XML 使 用 这 种 方式 来 表达 和 控制 文档 的 基本 结构 。 


一 个 比较 简短 但 相对 重要 的 例子 是 ， 使 所 有 电梯 回 到 原始 出 发 点 的 运动 的 
语言 (被 限制 在 第 五 大 道 的 Manhattan 龟 也 会 有 一 样 的 运动 轨迹 ) 
ZeroMotion, —> up ZeroMotion down ZeroMotion 
| down ZeroMotion up ZeroMotion 
| e 
(我 们 假设 电梯 井 使 无 限 长 的 ; 第 五 大 道 也 一 样 ) 。 
如 果 我 们 忽略 足够 多 的 细节 ， 我 们 也 能 认识 到 自然 语言 的 句子 中 底层 的 上 
下 文 无 关 结 构 ， 例 如 英语 : 


Sentence, —> Subject Verb Object 
Subject —> NounPhrase 
Object — NounPhrase 
NounPhrase —> the QualifiedNoun 
QualifiedNoun 一 Noun | Adjective QualifiedNoun 
Noun 一 castle | caterpillar | cats 
Adjective 一 well-read | white | wistful | 
Verb —> admires | bark | criticize | 


RE PE x GRE AF: 

the well-read cats criticize the wistful caterpillar 

然而 ， 因 为 没有 上 下 文 被 纳入 ， 它 也 会 生成 不 不 正确 的 形式 
the cats admires the white well-read castle 


为 了 保持 上 下 文 我 们 需要 使 用 短语 结构 语法 (为 了 更 简单 的 语言 ) 


Sentence, —» Noun Number Verb 
Number 一 Singular | Plural 
Noun Singular —> castle Singular | caterpillar Singular | 
Singular Verb —> Singular admires | 
Singular 一 € 
Noun Plural — cats Plural | …: 
Plural Verb 一 Plural bark | Plural criticize | .- 
Plural 一 € 


1s iGSingularfePluraldz s] Sz Eg 3 5C 3 35] AY ER o VER > 3X dB TA UTE 
叫 ...。 一 种 更 好 的 控制 上 下 文 的 方式 ， 详 见 15 章 的 各 小 节 ， 尤 其 是 Van 
Wijngaarde 语 法 (15.27) 以 及 属性 和 词组 语法 (15.3 节 ) ° 


大 部 分 的 CF 语 法 的 列子 来 源 于 编程 语言 。 这 些 语 言 
子 都 必须 自动 处 理 (也 就 是 ， 通 过 编译 器 Dus 而 且 很 
se 
的 所 有 编程 语言 的 句法 都 是 通过 正式 语言 定义 的 。 


(也 就 是 程序 ) 中 的 句 
及 快 (大 约 1958 年 ) A 
得 更 容易 。 现 今 使 用 


一 些 作 者 (例如 Chomsky) 和 一 些 解析 算法 ， 要 求 CF 语 法 是 单调 的 。CF 
规则 为 非 单调 的 唯一 方式 是 右 侧 为 室 。 这 一 规则 被 称 为 5 法则， 而 不 包含 这 
类 法 则 的 语法 被 称 为 免 e。 


免 E 并 不 是 一 种 限制 ， 而 只 是 一 种 妨碍 。 几 乎 任何 一 种 CF 语 法 都 可 以 变 成 
免 E 的 ， 通 过 E 法 则 的 系统 性 替换 ; 唯一 的 例外 是 一 个 语法 的 开头 符号 已 经 
生成 了 gs。 转换 过 程 在 4.2.3.1 节 有 详细 介绍 ， 不 过 这 里 同时 也 介绍 了 其 他 很 
多 语法 的 转换 ， 而 且 不 幸 的 是 通常 会 破坏 语法 的 结构 。 这 个 问题 将 在 2.5 节 
进一步 讨论 = 


2.3.2.3 注释 样式 


编程 语言 中 的 CF 语法 有 几 种 不 同 的 注释 样式 ， 每 个 都 有 无 尽 的 变形 ; 不 过 
它们 的 功能 都 是 一 样 的 。 这 里 我 们 给 出 了 两 种 主要 形式 。 第 一 个 是 Backus- 
Naur 形 式 (BNF)， 最 初 用 来 定义 ALGOL 60 的 。 示 例如 下 : 


«name»::- tom | dick | harry 
<sentence>,::= <name> | «list» and <name> 
<list>::= <name>, <list> | <name> 


这 个 形式 的 主要 属性 是 通过 使 用 尖 括 号 (<>) 将 非 终结 符 括 起 来 ，"::=" 来 
表示 "可 能 生成 "。 在 一 些 变 形 中 ， 由 分 号 结尾 。 


第 二 种 样式 是 CF van Wijingaarden 语 法 的 。 示 例如 下 : 


name: tom symbol; dick symbol; harry symbol. 
sentence,: name; list, and symbol, name. 
list: name, comma symbol, list; name. 


结尾 符号 用 ... 符 号 ; 它们 的 表示 是 硬件 依赖 的 而 且 不 在 语法 中 定义 。 规 则 
都 是 正确 终止 的 (以 句点 结束 ) 。 标 点 符号 总 是 或 多 或 少 的 按照 传统 方式 
使 用 ; 例如 ， 运 号 联结 比分 号 要 紧密 。 标 点 符号 如 下 : 

"is defined as a(n)” 


; ". or as a(n) 
S “followed by a(n)” 
". and as nothing else.” 


上 述 语 法 的 第 二 条 规则 应 该 读 作 :“ 一 个 sentence 被 定义 为 一 个 name 或 一 
个 list， 其 后 跟着 一 个 and-symbol 然 后 跟着 一 个 name， 除 此 没有 别 的 

了 。" 虽 然 这 种 表达 方式 仅 只 在 适用 于 两 级 Van Wijngaarden 语 法 时 能 得 到 
最 大 展现 ， 它 依旧 有 自己 的 优点 : 它 非常 正式 且 可 读 性 很 强 。 


2.3.2.4 CF 语 法 扩展 


CF 语 法 通常 是 既 比 较 紧 凑 又 可 读 性 较 高 的 9 通过 过 为 频繁 使 用 8j 2 告 构 引 入 特 
殊 的 短 项 。 如 果 我 们 回 到 图 2.10 中 的 书本 结构 语法 ， 将 会 看 到 类 似 下 面 这 
种 规则 频繁 出 现 : 


SomethingSequence ---> Something | Something 
SomethingSequence 


在 上 下 文 无 关 语 法 的 扩展 中 ， 我 们 可 以 用 Something "来 表示 “one or more 
Something”， 而 且 我 们 不 需要 专门 给 出 Something 的 规则 ; 于 是 有 了 下 
面 的 隐 式 显示 : 


Something+ ---> Something | Something Something+ 


同样 ， 我 们 可 以 用 Something 来 表示 " 零 个 或 多 个 Somethings”， 以 及 
Something ?来 表示 " 零 个 或 一 个 Something” (也 就 是 说 ， 可 选择 的 
Something) 。 这 些 例子 中 ， 符 号 ”， “和 ?要 与 MR oe 。 它 
们 的 范围 可 以 扩展 ， 通 过 括号 : (Something ;)' ?来 表示 "选择 一 个 
Something-followed-by-a-;”。 这 些 措 施 非 常 有 用 并 且 让 书本 结构 的 语法 可 
以 更 高 效 的 写 出 来 ane 2.11) 。 有 一 些 样式 甚至 允许 Something+4 这 
样 的 结构 ， 用 以 表示 "一 个 或 不 超过 4 个 的 Somethings”， 或 者 
Something ,来 表示 “一 个 或 多 个 通过 各 号 分 隔 的 Somethings” ; 这 似乎 
可 以 作为 把 一 件 好 事 做 过 头 的 例子 。 这 种 表示 法 被 称 为 BNF 扩 展 
(EBNF) 。 


Book, —> Preface Chapter* Conclusion 
Preface —> "PREFACE" Paragraph* 
Chapter 一 "CHAPTER" Number Paragraph* 

Paragraph 一 Sentence* 
Sentence —> 


Conclusion 一 "CONCLUSION" Paragraph* 


Fig. 2.11. A grammar of a book in EBFN notation 


EBNF 语 法 扩展 不 会 增加 其 表现 力 : 所 有 隐 式 规则 都 可 以 变 成 显 式 ， 结 果 得 
到 一 个 BNF 的 正常 CF 语法 注释 。 它 们 的 力量 在 于 其 用 户 友好 性 。X 的 星 号 
表示 "一连 串 的 零 个 或 多 个 XY， 其 被 称 为 Kleene 星 号 。 如 果 X 是 一 个 集合 ， 
MX 应 该 表示 “一连 囊 的 零 个 或 多 个 元 素 X” ; 这 与 我 们 在 2.1.3.3 节 中 提 到 的 
Y 中 的 星 号 一 样 。 涉 及 到 重复 运算 符 ,+ 或 者 ?以 及 分 隔 运算 符 ( 和 ) 的 运算 
形式 被 称 为 正则 表达 式 。 右 侧 拥 有 正则 表达 式 的 EBNF， 就 是 其 偶尔 被 称 为 
右 侧 正则 语法 RRP 语 法 (regular right part grammar) 的 原因 ， 这 个 称呼 
比 " 上 下 文 无 关 语 法 扩展 "要 更 具 表 现 性 ， 不 过 也 有 人 说 这 个 名 称 有 点 像 绕 口 
令 o 


关于 RRP 语 法 的 结构 意义 有 两 个 不 同 的 思想 流派 。 一 个 流派 主张 规则 应 该 
是 这 样 的 : 

Book ---> Preface Chapter+ Conclusion 

上 述 应 该 是 下 面 的 缩写 : 

Book ---> Preface a Conclusion a ---> Chapter | Chapter a 


这 是 “ (A) 递归 "的 解释 。 它 的 优点 是 易于 解释 而 且 转 换 到 “常规 "CF 语法 很 
简单 。 缺 点 是 转化 过 程 包 含 了 隐 式 规则 (用 a 表 示 ) 而 且 ， 例 如 一 本 有 四 章 
的 书 的 不 平衡 生成 树 不 对 应 于 我 们 关于 这 本 书 的 结构 的 本 来 想法 ; 见 图 Fig 
2.12 ° 





Fig. 2.12. Production tree for the (right)recursive interpretation 


第 二 种 流派 主张 
Book ---> Preface Chapter+ Conclusion 
上 述 是 下 面 的 缩写 : 


Book —> Preface Chapter Conclusion 
| Preface Chapter Chapter Conclusion 
| Preface Chapter Chapter Chapter Conclusion 


“和 迭代 "的 解释 。 它 的 优点 是 能 产生 一 个 优美 的 生成 树 〈 图 Fig 2.13) ， 
缺点 是 它 涉及 到 了 无 限 多 的 生成 规则 而 且 生 成 树 的 节点 有 着 变化 的 
fan-out ° 


这 是 
日 是 


> 


因为 迭代 解释 的 实施 是 不 会 亡 自 菲 薄 的 ， 最 具 实 用 性 的 解析 生成 器 在 一 些 
时 候 使 用 递归 解释 ， 然 而 大 多 数 研究 都 是 关于 迭代 解释 的 。 






Fig. 2.13. Production tree for the iterative interpretation 


2.3.3 3 型 语法 


CF 语法 的 基本 属性 是 它 描述 的 是 谋 套 : 一 个 对 象 可 能 在 不 同 地方 包 含 其 他 
对 象 ， 这 些 对 象 又 可 能 包含 其 他 对 象 .…. 等 等 。 在 生成 过 程 中 我 们 已 经 生成 
了 对 象 中 的 一 个 ， 而 右 侧 依旧 "记得 ? 接 下 来 该 生成 什么 ; 在 英语 语法 中 ， 在 
升 入 非 终 结 符 Subject 之 后 生成 类 似 wistful cat 的 东西 ， 右 侧 的 Subject 
Verb Object 依然 知道 后 面 必 须 是 一 个 Verb。 当 我 们 正在 准备 Subject 

时 ，Verb 和 Object 已 经 在 句子 形式 的 右 侧 排 队 等 待 了 ， 例 如 : 


the wistful QualifiedNoun Verb Object 
右 侧 是 : 
up ZeroMotion down ZeroMotion 


已 经 执行 了 一 个 up 和 一 个 任意 的 复杂 的 ZeroMotion 后 ， 右 侧 依 昌 知 道 接 下 
来 是 一 个 down ° 


对 3 型 的 限制 不 允许 回 济 以 前 的 事情 : 一 个 右 侧 可 能 只 包含 一 个 非 终 结 符 并 
且 其 必须 在 结尾 处 。 这 意味 着 只 有 两 种 规则 : | 

e 一 个 非 终结 符 生 成 零 个 或 多 个 终结 符 

。 一 个 非 终 结 符 生 成 零 个 或 多 个 其 后 接着 一 个 非 终 结 符 的 终结 符 

3 型 语法 的 原始 Chomsky 定 义 对 规则 进行 了 限制 : 

© 一 个 非 终结 符 生成 一 个 终结 符 。 

e 一 个 非 终结 符 生成 一 个 其 后 接着 一 个 非 终结 符 的 终结 符 。 

我 们 的 定义 是 等 效 的 并 且 更 加 方便 ， 虽 然 转 换 为 Chomsky3 型 并 不 是 完全 
没有 意义 的 。 

3 型 语法 也 被 称 为 正则 语法 (RE 语法 ) 或 有 限 状 态 语法 (FS 语法 ) 。 以 上 
版 本 的 更 精确 定义 称 为 右 正则 ， 因 为 规则 中 唯一 的 非 终结 符 出 现在 右 侧 的 
右 结尾 处 。 这 让 其 有 别 于 左 正则 语法 ， 其 受到 以 下 限制 


© 一 个 非 终结 符 生 成 零 个 或 多 个 终结 符 
© 一 个 非 终结 符 生成 一 个 其 后 接着 零 个 或 多 个 终结 符 的 非 终结 符 


其 规则 中 唯一 的 非 终结 符 出 现在 右 侧 的 左 结尾 处 。 左 正则 语法 相 比 于 右 正 
则 语法 不 那么 直观 ， 且 不 常 出 现 ， 以 及 更 难处 理 ， 但 它们 确实 偶尔 会 出 现 
(例子 见 5.1.1 节 ) ， 并 且 也 需要 加 以 考虑 。 将 会 在 5.6 节 进行 讨论 。 


由 于 右 正则 语法 的 普遍 性 高 于 左 正则 语法 ，“ 正 则 语法 ”一 词 通常 是 指 “ 右 正 
则 语法 *”， 左 正则 就 需要 明确 指明 了 。 本 书 中 我 们 也 遵照 此 约定 。 


比照 右 正则 和 右 递归 的 定义 是 一 件 有 趣 的 事情 。 非 终结 符 人 A 是 右 递 归 的 ， 如 
果 它 能 生成 一 个 右 侧 结 尾 是 人 的 句子 形式 ; 或 A 是 右 正则 的 ， 如 果 它 能 生成 
一 个 包含 A 的 句子 形式 ， 且 A 在 其 右 侧 结 尾 处 。 


在 对 上 下 文 无 关 语法 的 类 比 中 ， 其 被 称 为 在 此 之 后 它们 不 能 做 到 ， 正 则 语 
ik EL BABAR A “FER BiB 1k” © 


因为 正则 语法 经 常 被 用 来 描述 字符 级 的 文本 结构 ， 所 以 正则 语法 的 终结 符 
号 是 一 个 单一 字符 是 很 常见 的 。 所 以 我 们 应 该 用 t 代 替 Tom，d 人 代替 
Dick，h 人 代替 Harry 以 及 & 代 替 and。 图 Fig 2.14 (a) 以 这 种 形式 展示 了 
t,d&hi 语 言 的 右 正则 语法 ，Fig 2.14 (b) 展示 的 是 左 正则 语法 。 


Sentence, — t |d | h | List 
List 一 t ListTail | d ListTail | h ListTail 
ListTail 一 , List | &t | &d | & h 
(a) 


Sentence, — t |d | h | List 
List ListHead & t | ListHead & d | ListHead & h 
ListHead 一 ListHead , t | ListHead , d | ListHead , h | 
t {| di |b 
(b) 


J 


Fig. 2.14. Type 3 grammars for the t, d & h language 


3 型 语法 (AEM) 的 一 个 句子 的 生成 树 退 化 为 非 终 结 符 的 “生成 链 ”"， 该 链 
在 左 侧 放 置 了 一 列 终 结 符 。 图 Fig 2.15 展 示 了 一 个 例子 。 相 似 的 生成 链 由 左 
正则 语法 形成 ， 其 终结 符 放 在 左 侧 。 


图 Fig 2.14 中 语法 展现 出 来 的 致命 重复 对 正则 语法 来 说 很 正常 ， 然 后 发 明了 
很 多 符号 处 理 设 备 来 减弱 这 个 问题 。 最 常用 的 是 使 用 一 组 方 括号 来 指出 “一 
组 字符 集 之 外 的 一 个 ": [tdh] 是 tldlh 的 缩写 

Ss — [tdh] | L 


L —> [tdh] T 
T — ,L | & tan 


(Sentence) 


c 
a FER 


ai. " 


ie L) (LAstTail) 


D T 一 E 


Fig. 2.15. Production chain for a right-regular (Type 3) grammar 


个 第 一 次 看 上 去 可 能 很 神秘 ， 但 实际 上 却 更 方便 ， 而 且 能 将 语法 简化 


| d 


S, 一 [tdh] | L 
L — |[tdh] , L | [tdh] & [tdh] 
第 二 种 方式 是 引入 宏 ， 语 法 片段 的 代名词 ， 其 在 被 使 用 前 被 恰当 的 在 语法 
中 进行 替代 : 
Name —> t|d|h 


S, 一 $Name | L 
L 一 $Name , L | $Name & $Name 


正则 语法 的 流行 解析 生成 器 /ex (Lesk and Schmidt [360]) 都 表现 了 这 些 
便利 性 


如 果 我 们 坚持 3 型 的 Chomsky 定 义 ， 那 我 们 的 语法 将 被 不 会 小 于 : 


Ss tM|dM|hM 
M 
N 
P 


Vive 


这 个 形式 比较 容易 处 理 ， 但 是 比 起 /es 版 本 缺少 用 户 友 好 性 。 我 们 在 这 里 看 
正式 的 语言 学 家 (formal-linguist) 是 否 感 兴趣 且 是 否 对 我 们 有 帮助 通过 微 
小 的 方式 ， 计 算 机 科学 家 重视 语法 ($Name, etc.) 之 下 的 概念 被 清楚 表达 
的 形式 ， 虽 然 有 需要 额外 处 理 的 代价 。 


关于 正则 语法 有 两 个 有 趣 的 观点 ， 我 们 来 看 一 下 。 第 一 个 ， 当 我 们 使 用 正 
则 语法 来 生成 句子 ， 句 子 形式 将 会 只 包含 一 个 非 终 结 符 并 且 它 将 总 是 在 结 
尾 处 ; 如 下 图 (使 用 图 Fig 2.14 中 的 语法 ) 


Sentences 

List 

t ListTail 

E , hist 

t , d ListTail 

E; dikh 
第 二 个 观点 是 ， 所 有 的 正则 语法 都 可 以 缩减 体积 通过 使 用 2.3.2 节 中 介绍 的 

~ > Jo xt ? SL d de 2 ” i“ 时 > 

正则 表达 式 操作 符 ， 和 :， 来 分 别 表达 " 零 个 或 多 个 "，"“ 一 个 或 多 个 "以 
及 "选择 一 个 "。 使 用 这 些 运算 符 和 (以 及 ) 来 进行 分 组 ， 我 们 就 可 以 将 语法 简 
化 为 : 


Ss ---> (( [tdh], ) [tdh]& )? [tdh] 


这 里 用 括号 来 标定 操作 符 和 ?的 操作 数 。 所 有 3 型 语法 都 存在 正则 表达 式 。 
注意 ， 和 + 与 它们 前 面 的 字符 一 起 生效 。 为 了 将 它们 和 普通 的 乘法 和 加 法 
运算 区 分 开 ， 它 们 通常 是 作为 上 角 标 打印 的 ， 但 是 在 计算 机 输入 中 它们 和 
另外 两 个 符号 是 在 同一 行 上 的 ， 所 以 必须 用 其 他 方式 来 进行 区 分 。 


.有 一 个 自然 的 中 间 类 型 ，2.5 型 ， 其 中 只 允许 一 个 右 侧 有 一 个 单一 的 
非 终 结 符 ， 不 过 不 需要 一 定 在 结尾 处 。 这 就 给 了 我 们 所 谓 的 线性 语 
koe 


2.3.3 3 型 语法 


67 


2.3.4 4 型 语法 


我 们 现在 应 该 谈 到 的 在 生成 规则 中 的 最 后 一 条 限制 是 : 右 侧 不 允许 出 现 非 
终结 符 。 这 从 机 制 上 移 除 了 所 有 的 生成 力 ， 除 了 被 选中 的 可 选项 。 起 始 符 
号 有 一 列 (有 限 的 ) 可 选项 ， 我 们 所 允许 的 ; 这 个 在 名 称 中 有 所 展现 ， 有 
限 选项 语法 (FC 语 法 ) © 


对 语言 tid&h 是 没有 FC 语 法 的 ; 然而 ， 如 果 我 们 愿意 将 其 限制 在 数量 有 限 
(例如 不 超过 一 百 长 度 ) 的 名 字 列 表 中 ， 那 就 可 以 有 一 个 FC 语 法 了 ， 因 为 
可 以 枚 举 所 有 的 组 合 。 对 于 这 显然 在 限制 内 的 三 个 名 字 ， 我 们 就 有 了 : 

Sg ---> [tdh] | [tdh] & [tdh] | [tdh] , [tdh] & [tdh] 

以 上 总 计 3+3x3+3x3x3 = 39 条 生成 规则 。 

FC 语法 不 是 官方 Chomsky 层 次 结构 的 一 部 分 ， 因 为 这 不 是 Chomsky 定 义 
的 。 不 过 它们 仍然 非常 有 用 ， 而 且 常 在 一 些 处 理 或 推理 中 被 要 求 使 用 。 可 
以 用 FC 语法 来 描述 编程 语言 中 的 保留 字段 集 (XOT) 。 虽 然 不 是 很 多 语 
法 完全 是 FC， 不 过 很 多 语法 的 一 些 规则 是 有 限 选项 的 。 例 如 ， 我 们 第 一 个 

语法 的 第 一 条 规则 (图 Fig 2.3) 就 是 FC。 另 一 个 FC 规则 的 例子 是 2.3.3 节 
中 介绍 的 宏 。 我 们 不 需要 宏 机 制 ， 如 果 我 们 这 样 改 改 : 


zero or more terminals 
上 述 正 则 语法 定义 改 为 : 
zero or more terminals or FC non-terminals 


最 后 ，FC 非 终结 符 只 会 引入 有 限 的 终结 符 。 


2.3.5 结论 


图 Fig 2.16 的 表格 总 结 了 在 生成 一 个 字符 串 时 会 出 现 的 最 复杂 的 数据 结构 ， 
在 相关 语法 类 型 中 使 用 到 的 。 参 见 图 Fig 3.15， 在 解析 中 获得 的 相应 的 数据 
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Fig. 2.16. The most complicated production data structure for the Chomsky grammar types 


2.4 用 语法 生成 句子 


2.4.1 短语 结构 条 例 


直到 现在 ， 我 们 用 语法 只 生成 了 一 个 句子， 一 个 特定 的 时 尚 ， 不 过 语法 的 
目的 是 生成 所 有 句子 。 幸 运 的 是 还 有 系统 可 以 做 到 这 个 。 我 们 用 ab'c' 语 
法 来 做 例子 。 我 们 从 起 始 符号 开始 ， 然 后 用 系统 尝试 所 有 可 能 的 替换 来 生 
成 所 有 的 句子 形式 ; 我 们 只 需要 等 着 看 哪些 句子 在 什么 时 候 演变 成 句子 。 
手动 完成 10 个 句子 试 试 。 如 果 我 们 不 小 心 ， 很 容易 就 会 生成 像 aSQ,， 
aaSQQ, aaaSQQQ,... 这 样 的 形式 ， 而 且 我 们 将 永远 也 看 不 到 一 个 完整 的 句 
子 。 原 因 是 我 们 大 过 专注 于 一 个 单一 的 句子 形式 : 我 们 应 该 给 所 有 的 句子 
同样 的 时 间 。 这 可 以 通过 下 面 的 算法 完成 ， 其 保持 句子 形式 的 一 个 队列 
(也 就 是 一 个 列表 ， 表 中 是 我 们 要 加 到 结尾 和 从 开头 删除 的 元 素 ) 。 


从 起 始 符号 开始 ， 作 为 队列 中 唯一 的 句子 形式 。 现 在 继续 以 下 操作 : 


e 考虑 队列 中 的 第 一 个 句子 形式 。 

e 从 左 到 右 扫描 它 ， 了 寻找 符 合 左 侧 生成 规则 的 字符 串 。 

e 发 现 的 每 一 个 这 样 的 字符 串 ， 复 制 足够 的 句子 形式 ， 替 换 每 一 个 符合 
左 侧 生成 规则 的 字符 串 ， 通 过 规则 中 不 同 的 选项 ， 然 后 把 它们 全 部 添 
加 到 队列 末尾 。 

© 如 果 原 始 句 子 形式 不 包含 任何 非 终 结 符 ， 把 它 作 为 语言 中 的 一 个 句子 
写 下 来 。 

e. 扔 掉 原始 的 句子 形式 ; 它 已 经 被 处 理 完 成 了 。 


如 果 没 有 匹配 的 规则 ， 并 且 句 子 形式 不 是 一 个 完成 的 句子 ， 那 这 就 是 一 条 
死胡同 ; 它们 会 被 上 述 过 程 自动 删除 ， 不 留任 何 痕迹 。 

因为 上 述 过 程 枚 举 了 PS 语言 中 所 有 的 字符 串 ，PS 语 言 也 被 称 为 递归 可 枚 举 
集 ， 这 里 的 “递归 "是 指 “ 通 过 一 个 可 行 的 递归 算法 "。 


图 Fig 2.7 中 a"b"c" 语 言 的 处 理 过 程 的 开始 几 步 ， 展 示 在 图 Fig 2.17 中 。 队 
列 向 右 运 行 ， 其 第 一 项 在 左 侧 : 


Step Queue Result 
1 S 
2 abc aSQ abc 
3 aSQ 
4 aabcQ aaSQQ 
5 aaSQQ aabQc 
6 aabQc aaabcQQ aaaSQQQ 
7 aaabcQQ aaaSQQQ aabbcc 
aaaSQQQ aabbcc aaabQcQ 
9 aabbcc aaabQcQ aaaabcQQO aaaaSQQQQ aabbcc 
aaabQcQ aaaabcQQQ aaaaSQQQQ 
ll aaaabcQQQ aaaaSQQQQ aaabbccQ aaabQQc 


Fig. 2.17. The first couple of steps in producing for a"b" c" 


可 以 看 到 ， 并 不 是 每 次 我 们 打开 曲柄 都 可 以 得 到 一 个 句子 ; 实际 上 ， 在 这 
种 情况 下 申 正 的 句子 十 分 稀少 。 当 然 是 因为 在 这 一 过 程 中 ， 发 展 出 了 很 多 
的 侧 边 线 ， 而 这 都 需要 同等 的 重视 。 不 过 我 们 可 以 肯定 ， 每 一 个 可 以 生成 
的 句子 最 终 都 会 生成 : 我 们 不 会 放 过 任何 可 能 。 这 种 方式 被 称 为 广度 优先 
生成 ; 而 计算 机 做 的 比 人 要 好 。 
很 容易 认为 对 我 们 在 顶层 句子 形式 中 发 现 的 所 有 左 侧 内 容 全 部 替换 是 不 必 
须 的 。 为 什么 不 只 替换 第 一 个 ， 然 后 等 下 一 个 句子 形式 出 现 ， 在 替换 下 一 
个 ?2 然而 这 是 错误 的 ， 因 为 替换 第 一 个 有 可 能 会 导致 第 二 次 替换 时 上 下 文 
混乱 。 一 个 简单 的 例子 就 是 下 面 的 语法 : 

S, — AC 

AC 一 ac 
第 一 次 替换 A--->b 将 会 走 到 死胡同 里 ， 那 语法 将 什么 也 不 会 生成 。 做 两 个 
可 能 的 替换 也 将 导致 同样 的 死路 ， 但 是 却 依旧 会 有 第 二 个 句子 形式 ，ac。 
也 有 一 个 语法 例子 ， 其 中 队列 在 一 段 时 间 (很 短 ) 后 将 会 变 空 。 
如 果 语 法 是 上 下 文 无 关 的 (或 正则 ) ， 那 就 不 会 有 所 谓 的 上 下 文 被 破坏 
了 ， 那 么 替换 第 一 个 (或 只 替换 ) 匹配 的 就 是 很 安全 的 了 。 


这 里 有 两 点 要 说 明 。 第 一 ， 经 过 我 们 努力 之 后 得 到 的 句子 并 不 一 定 就 会 是 
我 们 想 要 的 那个 : 很 可 能 每 一 个 新 的 名 型 又 包含 着 一 个 非 终 结 符 。 我 们 应 
该 通过 检查 语法 事先 知道 ， 不 过 可 以 证 明 对 PS 语法 来 说 是 不 可 能 做 到 的 。 
正式 的 语言 学 家 (formal-linguist) 说 “一 个 PS 语法 是 否 生 成 空 集 是 不 可 判 
定 的 ”， 这 意味 着 ， 没 有 一 个 算法 能 明确 得 出 每 一 个 PS 语法 最 终 是 否 能 生成 
一 个 句子 。 不 过 这 不 意味 着 我 们 不 能 对 于 给 定 的 算法 证 明 其 无 法 生成 勾 
子 ， 如 果 该 语法 是 这 样 的 情况 。 这 意味 着 证 明 方法 不 适用 于 所 有 的 语法 : 
在 一 定时 间 内 能 完成 那 我 们 就 可 以 有 一 个 程序 ， 而 如 果 是 不 能 完成 的 那 时 
间 就 无 法 估 测 了 。 实 际 上 ， 上 述 生成 过 程 就 是 一 个 确切 告诉 我 们 答案 是 “是 
\ 否 "的 算法 (虽然 我 们 可 以 有 一 个 告诉 我 们 "是 \ 不 知道 "的 算法 ， 在 有 限时 间 
A) 。 虽 然 由 于 语言 的 一 些 深层 属性 导致 我 们 不 能 总 是 确切 得 到 我 们 想 要 
的 答案 ， 但 这 并 不 会 妨碍 我 们 获取 各 种 信息 以 更 加 了 解 语法 。 我 们 应 该 看 
到 这 是 一 种 反复 出 现 的 现象 。 计 算 机 科学 家 知道 形式 语言 学 的 绝境 ， 但 他 
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二 点 是 ， 当 我 们 确实 从 上 述 生 成 过 程 中 得 到 句子 的 时 候 ， 它 们 却 可 能 是 
通过 不 可 探寻 的 顺序 生成 的 。 对 于 非 单 调 语 法 ， 句 子 形式 可 能 短暂 增加 然 
后 急剧 缩小 ， 甚 至 可 能 变 成 空 字符 串 。 形 式 语 言 学 证 明 ， 不 会 有 一 个 适用 
所 有 PS 语法 的 莫 法 来 生成 长 度 增加 《实际 上 是 “ 非 递 减 ") 的 句子 。 换 和 句 话 
说 ，PS 语 法 的 解析 问题 是 不 可 解决 的 。 (虽然 术语 是 可 以 互 换 的 ， 但 似乎 
使 用 "不 可 判定 "来 描述 "是 \ 否 "问题 以 及 “不 可 解决 "来 描述 "解析 问题 "要 更 合 
理 。) 


2.4.2 CS & | 


上 述 的 语言 生成 过 程 也 适用 于 CS 语法 ， 除 了 有 关 确定 性 的 那 部 分 。 因 为 在 
进行 中 的 铅 子 形式 绝对 不 会 收缩 ， 所 以 句子 的 长 度 是 以 单调 递增 顺序 生成 
的 。 这 意味 着 如 果 空 字符 囊 不 是 第 一 个 字符 囊 ， 那 它 将 再 也 不 会 出 现 了 ， 
而 且 CS 语 法 不 会 生成 E。 此 外 ， 如 果 我 们 想 知道 一 个 给 定 字符 串 W 是 否 在 语 
言 中 ， 我 们 可 以 等 着 看 它 是 否 会 出 现 ， 如 果 出 现 那么 答案 就 是 “是 "， 而 如 果 
我 们 看 到 生成 了 长 度 更 长 的 字符 囊 ， 那 答案 就 是 “ 否 "。 


由 于 CS 语言 的 字符 串 可 以 被 一 个 可 能 的 递归 算法 识别 ， 所 以 CS 语言 也 被 
称 为 递归 集 。 


2.4.3 CF € | 


当 我 们 通过 CF 语法 生成 句子 时 ， 很 多 事情 都 简单 很 多 。 虽 然 我 们 的 语法 可 
能 永远 不 会 生成 句子 依 昌 有 可 能 发 生 ， 不 过 我 们 现在 可 以 事先 进行 检测 ， 
如 下 。 首 先 ， 扫描 语 法 以 找 出 所 有 的 非 终结 符 ， 其 对 应 右 侧 拥有 终结 符 或 
为 空 的 。 这 些 非 终结 符 确保 能 生成 东西 。 现 在 再 次 扫描 找到 对 应 右 侧 只 有 
唯一 终结 符 的 非 终结 符 ， 这 些 非 终结 符 确保 能 生成 东西 。 这 将 给 我 们 新 的 
保证 能 生成 东西 的 非 终 结 符 。 重 复 这 个 过 程 直到 不 在 有 新 的 非 终结 符 产 
生 。 如 果 按 这 种 方式 始终 找 不 到 起 始 符号 ， 那 这 个 语法 将 不 会 生成 什么 

了 。 


此 外 我 们 已 经 看 到 如 果 语 法 是 CF 形式 的 ， 我 们 就 能 每 次 重 写 最 左 侧 的 非 终 
结 符 (直到 我 们 重 写 了 所 有 的 可 选项 ) 。 当 然 我 们 也 可 以 一 直 重 写 最 右 侧 
的 非 终 结 符 。 这 种 方法 类 似 但 也 有 不 同 。 通 过 下 面 的 语法 : 


让 我 们 跟随 句子 形式 历险 ， 而 这 将 最 终 导致 d,h&h。 虽 然 这 将 经 历 几 次 生 

成 队列 ， 但 我 们 在 这 里 只 描述 对 它 做 了 哪些 改变 。 图 Fig 2.18 展 示 了 句子 形 
式 最 左 侧 或 最 右 侧 的 蔡 换 ， 根 据 涉及 到 的 规则 和 备 选项 ; 例如 (1b) 表示 
规则 1 备 选 项 pb， 第 二 个 备 选 项 。 


Ib Ib 

L&N L&N 
2a Oc 

N,L&N L&h 
Ob 2a 

d,L&N N,L&h 
2b 2b 

d,N&N N,N&h 
Oc Oc 

d,h&N N,h&h 
Oc Ob 

d,h&h d,h&h 


Fig. 2.18. Sentential forms leading to d, h&h, with leftmost and rightmost substitution 


生成 规则 使 用 的 序列 与 我 们 所 期 望 的 不 同 。 Of course in grand total the 
same rules and alternatives are applied, but the sequences are neither 
equal nor each other’s mirror image, nor is there any other obvious 
relationship. Both sequences define the same production tree (Figure 
2.19(a)), but if we number the non-terminals in it in the order they were 
rewritten, we get different numberings, as shown in (b) and (c). 


The sequence of production rules used in leftmost rewriting is called the 
leftmost derivation of a sentence. We do not have to indicate at what 
position a rule must be applied, nor do we need to give its rule number. 
Just the alternative is sufficient; the position and the non-terminal are 
implicit. A rightmost derivation is defined in a similar way. 
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Fig. 2.19. Production tree (a) with leftmost (5) and rightmost (c) derivation order 


A leftmost production step can be indicated by using an arrow marked 
with a small I: N,L&N I--->d,L&N, and the leftmost production sequence 


S 1---> L&N I---> N,L&N I---> d,L&N I---» d,N&N I---> d,h&N I---» d,h&h 


can be abbreviated to S I--*->d,h&h. Likewise, the rightmost production 
sequence 


S r---> L&N r---> L&h r---> N,L&h r---> N,N&h r---> N,h&h r---> d,h&h 


can be abbreviated to S r--->d,h&h. The fact that S produces d,h&h in any 
way is written as S--->d,h&h. 


The task of parsing is to reconstruct the derivation tree (or graph) for a 
given input string. Some of the most efficient parsing techniques can be 
understood more easily if viewed as attempts to reconstruct a left- or 
rightmost derivation process of the input string; the derivation tree then 
follows automatically. This is why the notion "[left|right]-most derivation" 
occurs frequently in this book (note the FC grammar used here). 


2.5 Jc ex S, IK SL 


在 前 面 的 段落 中 ， 关 于 是 否 一 个 规则 的 右 侧 要 比 其 左 侧 简短 ， 有 时 我 们 很 
明确 但 有 时 我 们 又 是 含糊 不 清 的 。0 型 规则 应 该 说 肯定 是 收缩 的 类 型 ， 而 单 
调 型 规则 肯定 不 是 ，2 型 和 3 型 只 有 在 生成 空 集 (e) 时 才 是 收缩 的 ; 这 些 都 
是 肯定 的 。 


原始 Chomsky 层 次 结构 (Chomsky[385]) 在 这 个 问题 上 非常 坚定 : 只 有 0 
型 规则 才能 使 句子 形式 收缩 。1 型 、2 型 和 3 型 规则 都 是 单调 的 。 此 外 1 型 规 
则 必须 使 上 下 文 相关 类 型 ， 这 意味 着 左 侧 非 终 结 符 的 只 有 一 个 是 被 允许 蔡 
换 的 〈 且 不 由 8 替换 ) 。 这 带 来 了 一 个 合适 的 层次 ， 使 得 每 一 层 都 是 其 父 集 
的 一 个 合适 子 集 ， 以 及 使 除了 0 型 语法 外 的 所 有 派生 图 实际 上 都 是 派生 树 。 
作为 一 个 例子 ， 考 虑 一 下 图 Fig 2.7 中 语言 anbncn 的 语法 : 
Í. S, — abc | aSQ 

2. bQc — bbcc 
3 


cQ — Qc 


它 是 单调 的 ， 但 不 是 严格 意义 上 的 上 下 文 相关 。 可 以 通过 展开 那 烦 人 的 规 
则 3 和 为 c 引 入 一 个 非 终 结 符 来 使 其 成 为 CS : 


l S, 一 abC | aSQ 
2 bQC — bbCC 

3a CQ — CX 

3b. CX — QX 

3c. QX —> Qc 

4. C > c 


现在 图 Fig 2.8 的 生成 图 变 成 了 一 个 生成 树 : 

















还 有 另 一 个 理由 回避 E 规 则 : 它 让 定理 和 解析 器 都 变 得 更 复杂 ， 有 时 尤其 复 
杂 ; 例如 9.5.4 节 。 因 此 就 出 现 了 一 个 问题 ， 我 们 到 底 是 为 什么 要 纠结 E 规 则 
呢 ; 答案 很 简单 因为 这 对 语法 作者 和 使 用 者 来 说 十 分 方便 。 


如 果 有 一 个 语言 是 使 用 E 规 则 的 CF 语 法 来 描述 的 ， 而 我 们 想 要 使 用 一 个 不 
人 钨 es 规 则 的 语法 来 进行 描述 时 ， 那 这 个 语法 将 会 是 非常 复杂 的 。 假 设 我 们 有 
一 个 系统 ， 可 以 输入 比特 信息 ， 比 如 "Amsterdam is the capital of the 
Netherlands” > “Truffles are expensive”， 那 就 会 被 问 道 一 个 问题 了 。 在 一 
e a ， 我 们 可 以 将 其 输入 定义 为 : 


inputs: Zero-or-more-bits-of-info question 
或 者 ， 以 一 种 扩展 的 记 法 
inputs: bit-of-info” question 


因为 zero-or-more-bits-of-info 将 会 生成 空 字符 串 ， 在 其 他 字符 $E 
至 少 在 其 语法 中 使 用 的 规则 之 一 是 Ee 规则 ; 在 扩展 记 法 中 的 ”已 经 意味 着 E 
规则 了 。 在 使 用 者 的 角度 来 看 ， 上述 输入 的 定义 很 好 的 解释 了 这 个 问题 ， 
并 且 就 是 我 们 想 要 的 。 


任何 试图 为 这 个 输入 写 e 规 则 ， 最 终 都 会 定义 一 个 概念 ， 包 含 后 来 的 bits-of- 
info 和 问题 一 起 (因为 这 个 问题 是 唯一 的 非 空 部 分 ， 所 以 它 必须 出 现在 所 有 
有 关 的 规则 中 ) 。 但 是 这 个 定义 根本 不 是 我 们 想 要 的 ， 而 且 它 是 一 个 半 成 
vet 
input,: question-preceded-by-info 
question-preceded-by-info: question 


| bit-of-info 
question-preceded-by-info 


随 着 语法 变 得 越 来 越 复杂 ， 其 是 E 无 关 的 要 求 就 变 得 越 来 越 令 人 讨厌 : 语法 
在 和 我 们 作对 ， 而 不 是 在 为 我 们 工作 。 


从 理论 角度 来 看 这 不 成 问题 : 任何 CF 语法 都 能 被 一 个 e 无 关 语 法 描述 ， 并 
且 e 规 则 在 也 不 被 需要 。 更 妙 的 是 任何 带 有 Eg 规 则 的 语法 都 能 被 转化 为 e 无 关 
的 语法 ， 作 为 同一 种 语言 。 在 以 上 示例 中 我 们 看 到 了 这 种 转变 ， 而 算法 详 
细 将 在 4.2.3.1 节 讲述 。 但 是 我 们 付出 的 代价 是 ， 对 任何 语法 的 转换 : 这 不 
在 是 我 们 的 语法 ， 并 且 它 极 少 的 反应 原始 结构 。 


底线 是 研究 人 员 发 现 e 规 则 是 一 个 有 用 的 工具 ， 并 且 除 了 通常 的 Chomsky 层 
次 结构 外 ， 是 否 存 在 非 单调 语法 的 层次 结构 ， 我 们 拭目以待 。 一 个 更 大 的 
扩展 : 2 型 和 3 型 语法 不 需要 是 单调 的 (因为 如 果 有 需要 ， 它 们 总 是 可 以 变 
成 这 样 ) ; 并 且 收 化 的 上 下 文 相 关 语法 总 是 等 同 于 无 限制 的 0 型 语法 ; mA 
含 e 规 则 的 单调 语法 总 是 等 同 于 0 型 语法 。 系 暗 转 我 们 可 以 把 这 两 个 层次 画 
在 一 张 图 里 面 ; 见 图 Fig 2.20。 将 不 同 作用 的 语法 类 型 用 线条 分 隔 。 作 用 相 
同 但 理论 上 不 同 的 语法 用 空格 分 隔 。 可 以 看 到 ， 如 果 我 们 坚持 非 单调 性 ， 
那 0 型 和 1 型 的 区 别 就 消失 了 。 


























Chomsky (monotonic) hierarchy | non-monotonlc 
hierarchy 
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global grammars with £-rules 
production context-sensitive monotonic context-sensitive 
Type | erammars grammars, grammars with 
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ibi Type 2 | context-free £-free grammars context-free grammars 
cti c eeular er: ars 
production Type 3 | regular (£-free) grammars regular grammars, 
regular expressions 
no production | Type 4 finite-choice 








Fig. 2.20. Summary of grammar hierarchies 


如 果 1 型 到 3 型 语法 本 身 包含 空 字符 串 ， 那 就 出 现 一 个 特殊 的 情况 。 这 不 能 

被 纳入 单调 层次 结构 的 语法 中 ， 因 为 其 起 始 符号 长 度 已 经 为 1 且 没 有 单调 规 
则 能 让 它 收 贫 。 所 以 空 字符 串 应 该 被 重视 作为 语法 的 一 个 特殊 属性 。 这 样 
的 问题 不 会 出 现在 非 单调 层次 结构 中 。 


许多 解析 方法 原则 上 只 为 无 关 语法 工作 : 如 果 一 个 东西 什么 都 不 能 产生 ， 
那 你 可 能 不 太 容易 发 现 它 是 否 在 那 。 通 常 解析 方法 可 以 修改 来 控制 e 规 则 ， 
但 这 总 是 会 增加 方法 的 复杂 度 。 这 么 说 可 能 也 是 公平 的 ， 这 本 书 将 薄 

30%， 如 果 E 规 则 不 存在 的 话 不 过 ， 语 法 就 要 损失 不 止 30% 的 价值 了 ! 





2.6 生成 空 语 言 的 语法 


在 印度 当 0 被 作为 数字 被 数学 家 引入 后 的 大 约 1500 年 后 ， 这 一 概念 依旧 没 
有 被 计算 机 科学 好 好 接受 。 许 多 编程 语言 不 支持 0 字段 的 记录 ，0 元 素 的 数 
组 ， 或 0 变量 的 变量 定义 ; 在 一 些 编程 语言 中 ， 调 用 0 个 参数 协 程 的 语法 不 
同 于 调用 一 个 或 多 个 参数 的 协 程 的 语法 ; 许多 编译 器 也 无 法 编译 定义 0 个 名 
称 的 模块 ; 这 些 例子 还 可 以 很 轻松 的 扩展 下 去 。 更 具体 的 说 ， 我 们 不 知道 
有 什么 解析 器 生成 器 可 以 生成 一 个 空 语言 的 解析 器 ， 这 个 空 语 言 有 0 个 字符 
Bo 


所 有 这 一 切 都 将 我 们 引 向 一 个 问题 ， 空 语言 的 语法 会 是 什么 样 的 ? 首先 注 
意 ， 空 语言 不 同 于 只 包含 空 字符 串 的 语言 ， 空 字符 串 只 是 包含 0 个 字符 。 这 
种 语言 很 容易 由 Ss--->E 生 成 ， 并 且 被 普通 /ex-yacc 流 正确 处 理 。 注 意 ， 这 


个 语法 没有 终结 符 ， 这 意味 着 2.2 节 的 VT 是 空 集 。 


对 一 个 语法 来 说 不 生成 任何 东西 ， 那 生成 过 程 将 不 被 允许 终止 。 这 就 有 了 
一 个 办 法 来 获得 这 一 一 种 语法 : Se--->S。 然 而 这 很 令 人 不 当 ， 有 两 个 原 
因 。 从 算法 角度 来 说 ， 生 成 过 程 只 是 在 循环 ， 而 没有 获得 任何 关于 语言 的 
空 属性 的 信息 ; 而 且 符号 S 的 使 用 是 任意 的 。 


另 一 个 方法 就 是 迫使 生成 过 程 被 卡 住 ， 通 过 让 语法 中 没有 任何 生成 规则 。 
那么 2.2 节 的 尺 就 也 会 是 室 的 了 ， 然 后 语法 的 形式 就 是 ({S}, D, S, 们 。 这 还 
不 是 很 理想 ， 因 为 我 们 由 一 个 没有 定义 规则 的 非 终结 符 ; 并 且 符 号 S 还 是 


意 的 。 


任 


更 好 的 方式 是 永远 不 要 让 生成 过 程 开始 : 没有 起 始 符号 。 这 是 可 行 的 ， 通 
过 在 语法 定义 中 允许 出 现 一 组 起 始 符 号 而 不 是 一 个 单一 的 起 始 符号 。 这 么 
做 还 有 其 他 很 好 的 理由 。 举 个 例子 ， 一 个 大 型 编程 语言 的 语法 ， 该 语言 的 
模块 规格 、 模 块 定义 等 有 着 多重“ 根 ”。 虽然 在 顶层 这 些 是 不 同 的 ， 但 它们 在 
共同 语法 上 有 着 大 量 的 段 (segment) 。 如 果 我 们 将 一 个 CF 语法 定义 扩展 
来 使 用 一 组 起 始 符号 ， 空 语言 的 语法 将 获得 优雅 和 令 人 满意 的 形式 ({}, D, 

15 


关于 0 和 空 : 考虑 一 下 左 侧 是 空 的 语法 规则 ， 可 能 是 有 帮助 的 。 这 种 规则 的 
右 侧 的 最 终生 成 物 可 能 出 现在 输入 的 任何 地 方 ， 因 此 模拟 噪声 和 其 他 每 天 
但 外 部 的 事件 。 


a 


我 们 人 全神贯注 于 空 字 符 串 、 空 集 、 空 语言 等 不 是 轻浮 的 ， 因 为 这 是 众 所 周 
知 的 ， 系 统 处 理 空 实例 的 轻松 是 其 洁净 度 和 稳健 性 的 一 个 衡量 。 


A 


2.7 CF 和 FS 语法 的 限制 


当 使 用 CF 语 法 工作 一 段 时 间 后 ， 你 就 会 渐渐 感觉 到 似 任何 东西 都 能 用 一 个 
CF 来 进行 描述 。 然 而 ，CF 语 法 能 描述 的 却 有 着 严重 的 限制 ， 按 照 著 名 的 
UVWXy 理 论 的 说 法 ， 下 面 将 进行 解释 。 


2.7.1 uvwxy22 


当 我 们 从 CF 语 法 中 获得 了 一 个 句子 后 ， 我 们 应 该 仔细 看 负 中 的 每 一 个 终结 
符 ， 然 后 问 自己 : 它 是 怎么 在 这 的 ? 然后 看 一 下 生成 树 ， 我 们 看 到 它 被 生 
成 作为 右 侧 规则 m 的 第 n 位 成 员 。 这 个 规则 的 左 侧 ， 符 号 的 父 节点 ， 再 次 生 
成 规则 Q 的 第 p 位 成 员 ， 等 等 ， 直 到 我 们 到 达 起 始 符号 。 在 某 种 意义 上 ， 我 
们 可 以 通过 这 种 方式 追踪 符号 的 轨迹 。 如 果 一 个 符号 的 轨迹 的 所 有 规则 /成 
员 对 都 是 不 同 的 ， 我 们 称 这 个 符号 是 原始 的 ， 如 果 一 个 句子 中 的 所 有 符号 
都 是 原始 的 ， 我 们 称 这 个 句子 是 “原始 "的 。 


例如 ， 下 面 生成 树 中 第 一 个 h : 


由 下 面 语 法 生成 的 


AERE 


h 的 谱系 是 ， 来 自 7，1， 来 自 4，1， 来 自 3，3， 来 自 1，1. 这 里 ， 第 一 个 数 
字 代 表 规 则 数 ， 第 二 个 数字 代表 这 个 规则 中 的 成 员 数 。 因 为 所 有 的 规则 /成 
员 对 都 是 不 相同 的 ， 所 以 h 是 原始 的 。 


现在 对 于 一 个 给 定 的 符号 ， 只 有 有 限 的 方式 来 让 其 是 原始 的 。 这 很 容易 ， 
如 下 所 示 。 一 个 原始 符号 的 谱系 中 的 所 有 规则 /成 员 对 必须 是 不 相同 的 ， 所 
以 其 谱系 的 长 度 一 定 不 会 比 语法 中 所 有 不 同 规则 /成 员 对 的 总 长 度 还 长 。 
There are only so many of these, which yields only a finite number of 
combinations of rule/member pairs of this length or shorter. 理论 中 ， 一 个 
符号 的 原始 谱系 的 数量 可 能 是 非常 巨大 的 ， 但 实际 中 确实 非常 小 的 : 如 果 
有 超过 10 种 方法 来 生成 一 个 给 定 的 符号 ， 从 语法 中 通过 原始 谱系 ， 那 这 个 
语法 将 会 是 非常 错综复杂 的 ! 


这 对 原始 句子 就 有 了 严格 的 限制 。 如 果 原 始 句 子 中 一 个 符号 出 现 两 次 ， 这 
两 个 的 谱系 必须 不 相同 : 如 果 谱 系 相同 ， 那 它们 应 该 描述 的 是 用 一 个 位 置 
的 同一 个 符号 。 这 意味 着 原始 长 度 有 着 最 大 长 度 : 所 有 符号 的 原始 谱系 的 
长 度 总 和 。 对 一 个 编程 语言 语法 的 平均 的 长 度 ， 在 数 以 千 计 的 符号 的 长 度 
顺序 中 ， 大 致 相当 于 语法 的 长 度 。 所 以 ， 因 为 有 着 最 长 的 原始 句子 ， 那 么 
就 只 能 有 着 有 限 数量 的 原始 句子 ， 然 后 我 们 就 得 到 了 一 个 令 人 惊讶 的 结论 
就 是 任何 CF 语法 只 生成 大 小 有 限 的 原始 句子 核心 ， 以 及 (也许) 无 限 数量 
的 非 原始 句子 | 


“ 非 原始 "句子 是 什么 样 的 ?这 就 是 我 们 开始 介绍 UVWXy 定 理 的 地 方 。 一 个 非 
原始 句子 具有 这 一 的 属性 ， 在 谱系 中 包含 至 少 一 个 重复 出 现 的 符号 。 假 设 
那个 符号 是 9， 重 复 的 规则 是 A。 那 我 们 就 可 以 画 一 幅 累 死 图 Fig2.21 的 

图 ，W 有 是 由 A 的 最 新 应 用 生成 的 部 分 ，VvWXx 是 A 的 其 他 应 用 生成 的 部 

分 ，UVWXY 就 是 这 个 非 原始 句子 。 现 在 我 们 立即 就 可 以 找到 另 一 个 非 原 始 
句子 ， 通 过 删除 以 A 为 首 的 小 三 角 ， 然 后 用 以 A 为 首 的 大 三 角 副 本 替换 ; 见 
图 Fig 2.22 。 








Fig. 2.21. An unoriginal sentence: uvwxy 





Fig. 2.22. Another unoriginal sentence, uv? wx? y 


这 个 新 的 树 生成 了 句子 UvvWxXy， 并 且 以 这 种 方式 ， 可 以 很 容易 看 到 我 们 
能 构建 句子 UV wx" y 的 完整 家 族 对 于 所 有 n > 0 的 。 这 种 方式 显示 了 W 吝 套 
于 一 组 v 和 X 括 号 之 间 ， 在 U 和 y 无 关 的 上 下 文中 。 


底线 是 当 我 们 审查 一 个 上 下 文 无关 语 言 中 的 越 来 越 长 的 句子 ， 原 始 句子 慢 
慢 用 尽 ， 我 们 遇 到 的 只 是 句子 的 相近 形式 的 家 族 ， 慢 慢 缩 进 至 无 限 。 这 

在 UVvWxy 理 论 中 有 总 结 : 任何 由 CF 语法 生成 的 句子 ， 比 最 长 的 原始 句子 还 
要 长 的 句子 ， 都 可 以 被 切 分 称 五 个 部 分 U,V,w,X,y， 以 这 种 方式 UV WX ys 
这 个 语法 下 n > 0 得 来 的 一 个 句子 。Uvwxy 理 论 也 被 称 为 上 下 文 无 关 语 言 的 
2&5] (pumping lemma) ;而 且 由 几 个 变种 。 


有 两 点 必须 在 这 里 指出 。 第 一 点 ， 如 果 一 个 语言 持续 生成 越 来 越 长 的 名 
子 ， 而 不 减少 谋 套 句子 的 族 系 ， 那 这 个 语言 就 不 会 存在 一 个 CF 语法 。 我 们 
已 经 遇 到 了 上 下 文 相关 语言 anbncn， 很 容易 看 到 (但 不 是 很 容易 去 证 
明 ! ) 它 不 会 衰退 成 这 样 的 谋 套 的 句子 ， 当 句子 变 得 越 来 越 长 时 。 因 此 ， 
它 是 没有 CF 语法 的 。 这 种 证 明 的 通用 技术 见 Billington [396] » 


m 


* 


二 点 是 ， 最 长 的 原始 句子 是 语法 的 一 个 属性 ， 而 不 是 语言 的 。 通 过 为 语 

制造 一 个 并 发 的 语法 ， 我 们 能 增加 原始 句子 的 集合 ， 并 且 可 以 推 开 我 们 
被 迫 诉 诸 于 诅 套 部 分 的 边界 。 如 果 我 们 让 语法 无 限 并 发 ， 那 我 们 就 能 使 边 
变 得 无 限 ， 并 从 中 获得 一 个 短语 结构 语言 。 如 何 将 CF 语法 变 得 无 限 并 
， 将 会 在 15.2.1 节 中 的 两 级 语法 中 介绍 。 


=> 


Ww 


PE oe 


2.7.1 uvwWXy 理 人 论 


88 


2.7.2 uvw 36 


UVW 理 论 的 简单 形式 应 用 于 正则 (3 型 ) 语言 。 我 们 已 经 看 到 FS 语法 生成 的 
句子 形式 全 部 都 仅 只 包含 一 个 非 终结 符 ， 在 结尾 出 现 。 在 一 个 很 长 的 句子 

的 生成 期 间 ， 一 个 或 多 个 非 终 结 符 必须 出 现 两 次 或 多 次 ， 因 为 只 能 有 有 限 

数量 的 非 终 结 答 。 图 Fig2.23 展 示 了 当 我 们 一 个 一 个 列 出 句子 形式 时 所 看 到 
的 。 


Start_symbol 


<ra A appears again 


Fig. 2.23. Repeated occurrence of A may result in repeated occurrence of v 


子 串 v 在 A 的 一 次 出 现 到 下 一 次 之 中 被 生成 ，U 是 让 我 们 能 到 达 A 的 一 个 序 
列 ，W 是 让 我 们 能 终止 生成 过 程 的 序列 。 将 明确 指出 ， 从 第 二 个 A 开始 ， 我 
们 可 能 重复 了 跟 第 一 个 A 一 样 的 路 径 ， 从 而 生成 了 uvyvww。 这 将 我 们 引导 

到 UvW 理 论 ， 或 正则 语言 的 泵 引 理 (pumping lemma for regular 
languages) : 正则 语言 的 任何 一 个 足够 长 的 字符 串 都 能 被 切 分 成 U，V， 
W3 个 部 分 ， 所 以 对 n> 0 的 所 有 uw WwW 都 是 这 个 语言 的 一 个 字符 串 。 


2.8 作为 转换 图 的 CF 和 FS 语法 


转换 图 是 一 个 有 向 图 ， 其 中 箭头 被 标记 为 零 或 你 生成 的 一 个 相关 联 的 符 
号 ， 如 果 确 实 有 这 样 的 符号 的 话 ， 和 否则 就 什么 也 不 标记 。 节 点 ， 往 往 没有 
标记 的 ， 是 符号 在 生成 中 被 放置 的 点 。 如 果 一 个 节点 有 多 个 箭头 向 外 传 
出 ， 你 可 以 选择 任何 一 个 继续 往 下 。 所 以 图 Fig 2.24 中 的 转换 图 产生 相同 的 
字符 串 ，2.3.2 节 的 示例 语法 。 





Fig. 2.24. A transition graph for the [tdh] language 


把 语法 变 成 一 组 转换 图 是 相当 简单 的 ， 一 个 非 终 结 符 对 应 一 个 转换 图 ， 如 
图 Fig 2.25。 但 它 包含 标记 了 非 终结 符 的 箭头 ， 而 “生成 "一 个 非 终结 符 的 意 
义 与 箭头 相关 联 并 不 是 非常 明确 。 假 设 我 们 在 节点 n7， 从 一 个 标记 了 非 终 
结 符 的 转换 (箭头 ) N 指 向 节点 n2， 而 且 我 们 想 要 这 种 转换 。 
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Fig. 2.25. A recursive transition network for the sample grammar on page 23 


我 们 将 节点 n2 推 入 堆栈 ， 而 不 是 通过 追加 到 输出 来 生成 N， 然 后 继续 我 们 
的 进入 NN 的 转换 图 的 旅程 。 当 我 们 结束 NN 的 转换 图 是 ， 我 们 从 堆栈 中 弹出 n2 
然后 在 N2 继 续 向 前 。 这 就 是 上 下 文 无 关 语 法 的 递归 传递 网 络 释 义 : 转换 图 
组 就 是 传递 网 ， 堆 栈 机 制 提供 递归 。 


图 Fig 2.26 展 示 了 图 Fig 2.14 中 FS 语法 的 右 正则 规则 的 转换 图 。 这 里 我 们 漏 
掉 了 图 终点 处 未 标记 的 箭头 和 与 其 相关 联 的 节点 ; 我 们 本 可 以 和 图 Fig 2.25 
中 一 样 做 ， 但 这 么 做 将 会 使 堆栈 机 制 变 复杂 。 
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Fig. 2.26. The FS grammar of Figure 2.14(a) as transition graphs 


我 们 看 到 只 有 当 我 们 要 离开 一 个 非 终结 符 的 时 候 我 们 才 需 要 在 生成 一 个 ， 
所 以 我 们 不 需要 堆栈 任何 东西 ， 并 且 能 解释 一 个 标记 了 非 终结 符 NN 的 箭头 
作为 到 N 的 转换 图 的 跳 转 。 所 以 一 个 正则 语法 对 应 于 一 个 ( 非 递 归 ) 传递 
网 络 。 


如 果 我 们 将 网 络 结尾 处 的 每 一 个 标记 了 NN 的 箭头 和 NN 转换 图 的 起 始 处 相关 
联 ， 那 我 们 可 以 忽略 掉 非 终结 符 ， 然 后 获得 相关 语言 的 一 个 转换 图 。 当 我 
们 将 这 个 短路 劲 应 用 在 图 Fig 2.26 的 传递 网 络 ， 并 稍微 重新 排列 一 下 节点 ， 
我 们 就 得 到 了 图 Fig 2.24 的 转换 图 。 


2.9 EF LHKABANHES 


所 有 种 类 的 语法 都 可 能 包含 无 用 的 规则 ， 这 些 规则 在 任何 成 功 的 生成 过 程 
中 都 不 能 成 为 一 个 有 用 的 角色 。 一 个 生成 过 程 是 成 功 的 ， 当 它 一 一 个 终结 
符 结 尾 时 。 生 成 尝试 可 能 失败 ， 通 过 卡 住 (下 一 步 没 有 可 替代 的 ) 或 者 进 
入 一 种 没有 替代 序列 能 移 除 掉 所 有 的 非 终 结 符 的 境地 的 情况 。0 型 语法 被 卡 
住 的 一 个 示例 如 下 : 


l S -» AB 
2 S 一 BA 
3 S 一 C 
4 AB 一 x 
5 C 一 CC 


当 我 们 从 S 的 第 一 个 规则 开始 ， 一 切 都 进展 顺利 并 且 生 成 了 终结 符 X。 但 是 
当 我 们 从 S 的 第 二 条 规则 (规则 2) 开始 时 ， 我 们 就 被 卡 住 了 ， 而 当 我 们 从 
规则 3 开始 时 ， 我 们 就 发 现 进 入 了 一 个 无 限 循环 中 ， 生 成 越 来 越 多 的 C。 规 
则 2、3 和 5 永远 都 不 会 产生 一 个 成 功 的 生成 过 程 : 他 们 是 无 意义 的 规则 ， 并 
且 也 无 法 在 不 影响 语言 生成 的 情况 下 从 语法 中 移 除 掉 。 


无 用 的 规则 并 不 是 根本 性 的 问题 : 它们 不 会 妨碍 正常 的 生成 过 程 。 尽 管 如 
此 ， 它 们 依旧 是 语法 中 的 枯木 ， 而 总 有 人 会 想 移 除 它们 。 并 且 ， 当 他 们 出 
现在 由 程序 员 指 定 的 语法 中 时 ， 它 们 可 能 会 指向 某 些 错误 ， 那 就 会 想 要 检 
测 它们 并 给 出 警告 或 错误 信息 。 


上 述 语法 的 问题 很 容易 理解 ， 但 可 以 表明 ， 大 多 数 情况 下 是 很 难 判 定 在 0 型 
或 1 型 语法 中 的 一 条 规则 是 无 用 的 : 不 可 能 有 一 种 算法 能 在 所 有 情况 下 都 正 
确 判 断 。 然 而 ， 对 上 下 文 无 关 语 法 来 说 ， 这 个 问题 就 是 相当 容易 解决 的 
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在 上 下 文 无 关 语 法 中 的 规则 可 能 是 无 用 的 ， 因 为 三 个 原因 : 它们 可 能 包含 
未 定义 的 非 终 结 符 ， 从 起 始 符号 开始 可 能 无 法 到 达 它 们 ， 以 及 它们 可 能 无 
法 生存 任何 东西 。 接 下 来 我 们 会 详细 讨论 这 些 缺陷 ; 2.9.5 节 给 出 了 一 个 算 
法 可 以 帮助 语法 拜托 这 些 缺 陷 。 


2.9 上 下 文 无 关 语法 的 健全 
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2.9.1 未 定义 的 非 终 结 符 


一 些 规则 的 右 侧 可 能 包含 一 个 非 终结 符 ， 其 没有 对 应 的 生成 规则 。 这 样 的 

规则 永远 也 不 会 出 现 问题 ， 并 且 可 以 被 从 语法 中 移 除 。 如 果 我 们 这 样 做 ， 

ee 而 这 个 非 终结 符 会 反 
变 成 未 定义 的 ， 等 等 。 


我 们 会 进一步 看 到 (例如 4.1.3 节 ) ， 认 可 未 定义 非 终结 符 偶尔 也 是 有 意义 
的 。 在 它们 右 侧 的 解释 它们 的 规则 ， 又 是 可 以 删除 的 。 


2.9.2 不 可 到 达 的 非 终结 符 


如 果 一 个 非 终 结 符 ， 无 法 从 起 始 符号 到 达 它 ， 它 的 定义 规则 将 永远 不 会 被 
用 到 ， 那 它 也 不 能 为 任何 句子 的 生成 过 程 做 出 贡献 。 不 可 到 达 的 非 终结 符 
es o 但 这 个 说 法 有 点 误导 ， 因 为 一 个 不 可 

达 Sean 出 现在 右 侧 B-->...A...， 使 它 看 起 来 是 有 用 的 而 让 B 
、 的 ; 这 同样 也 适用 于 B， 等 等 。 


2.9.3 非 生成 性 规则 和 非 终结 符 


假设 X 有 其 唯一 规则 X 一 aX 并 且 假 设 从 起 始 符号 可 以 到 达 X。 那 现在 X 依 然 
不 会 对 其 语言 语法 中 的 句子 做 出 贡献 ， 因 为 一 旦 引入 的 X 就 没有 办 法 摆脱 它 
d : X 是 一 个 非 生 成 性 的 非 终结 符 。 此 外 ， 任 何 规则 其 右 侧 含有 X 的 都 是 非 
生成 性 的 。 简 单 说 ， 任 何 本 身 不 产生 非 空子 语言 的 规则 是 非 生成 性 的 。 如 
果 一 个 非 终结 符 的 所 有 规则 都 是 非 生成 性 的 ， 那 这 个 非 终结 符 就 是 非 生成 
性 的 。 


一 个 极端 的 例子 就 是 一 个 语法 中 的 所 有 非 终结 符 都 是 非 生成 性 的 。 这 种 情 
况 发 生 在 一 个 语法 的 所 有 右 侧 都 包含 至 少 一 个 非 终结 符 。 然 后 就 没有 办 法 
能 摆脱 非 终结 符 ， 那 这 个 语法 就 是 非 生成 性 的 。 


这 三 种 情况 合 起 来 就 被 成 为 无 用 的 非 终结 符 。 


2.9.4 /& X 


上 述 定义 使 所 有 可 以 包含 在 一 个 句子 生成 过 程 中 的 规则 是 “ 非 无 用 ”的 ， 但 仍 
有 一 类 规则 并 不 是 监 的 有 用 : 类 似 A 一 A 形式 的 规则 。 这 类 规则 被 称 为 循 
环 。 循 环 也 可 以 是 间接 的 :A 一 B,B 一 > C,C 一 A ;而 且 它 们 可 以 被 隐藏 : 
A 一 PAQ，P &£&Q je， 所 以 生成 过 程 A 一 PAQ 一 . . .A.. .一 A 也 是 可 能 
的 。 





一 个 循环 可 以 合理 的 而 出 现在 句子 的 生成 过 程 中 ， 并 且 如 果 它 确实 出 现 
了 ， 依 昌 会 有 这 个 句子 的 另 一 个 不 包含 循环 的 生成 过 程 。 和 循环 不 对 语言 最 
贡献 ， 任 何 匈 子 的 生成 过 程 包含 一 个 循环 的 无 限 模 糊 的 ， 意 味 着 对 它 来 说 
有 无 限 多 的 生成 树 。4.1.2 节 中 给 出 了 循环 检测 算法 。 


不 同 解析 器 对 带 有 循环 的 语法 的 反应 不 一 样 。 有 些 (大 部 分 的 普通 解析 
器 ) 诚实 的 试图 去 构建 无 限 数 量 的 推导 树 ， 另 一 些 (例如 ，CYK 解 析 器 ) 
如 上 文 所 壕 一 样 将 循环 折 熏 超 来 ， 还 有 一 些 (最 具 决 定性 的 解析 器 +) 拒绝 
了 这 样 的 语法 。 而 8 规则 可 以 隐藏 循环 加 剧 了 这 个 问题 : 一 个 循环 只 有 当 某 

些 非 终 结 符 生成 了 g 时 ， 才 是 可 见 的 


一 个 不 含有 无 用 非 终结 符 和 循环 的 语法 ， 才 被 称 为 一 个 正确 的 语法 。 


2.9.5 清理 上 下 文 无 关 语 法 


通常 情况 下 ， 人 们 提供 的 语法 不 会 包含 未 定义 ， 不 可 到 达 或 非 生 成 性 的 非 
终结 答 。 如 果 出 现 了 ， 那 几乎 可 以 肯定 是 一 个 失误 (或 者 是 用 来 测试 

的 | ) ， 然 后 我 们 就 要 检测 和 报告 出 来 。 然 而 ， 这 种 异常 情况 很 容易 出 现 
在 生成 的 语法 或 由 其 他 语法 转换 所 引入 的 语法 中 ， 这 种 情况 下 我 们 就 希望 
能 检测 到 然后 “清理 "一 下 语法 。 清 理 语法 也 是 十 分 重要 的 ， 当 我 们 获取 解析 
森林 语法 的 解析 结果 时 (3.7.4 节 ，13 章 以 及 其 他 很 多 地 方 ) 。 


BC ee cha ne ee 含 两 个 
步骤 : 移 除非 生成 性 规则 以 及 移 除 不 可 到 达 的 非 终结 符 。 令 人 惊叹 的 由 于 
未 定义 的 非 终 结 符 ， 似 的 移 除 无 用 的 规则 并 不 是 必须 的 : is 自 
动 完成 了 这 个 过 程 。 


Ss — AB|DE 
A — a 

B 一 bC 

C — c 

D 一 dF 

E — e 

F 一 fD 


Fig. 2.27. A demo grammar for grammar cleaning 


我 们 将 使 用 图 Fig 2.27 中 的 语法 来 进行 演示 。 它 看 起 来 相当 单纯 : 它 的 所 有 
非 终 结 符 都 是 定义 了 的 ， 而 且 它 也 没有 表现 出 任何 可 疑 的 结构 。 


2.9.5.1 移 除非 生成 性 规则 


我 们 通过 找到 一 个 生成 性 规则 来 寻找 非 生 成 性 的 规则 。 我 们 的 算法 取决 于 
观测 ， 如 果 一 个 规则 的 右 侧 包含 的 符号 都 是 生成 性 的 则 这 个 规则 就 是 生成 
性 的 。 终 结 符 是 生成 性 的 因为 它 能 生成 终结 符 ， 空 也 是 生成 性 的 因为 它 能 


生成 空 字符 串 。 如 果 一 个 非 终结 符 有 一 个 生成 性 规则 对 应 于 它 那 它 也 是 生 
成 性 的 ， 但 问题 是 起 初 我 们 并 不 知道 哪 条 规则 是 生成 性 的 ， 因 为 这 本 身 就 
是 我 们 在 努力 寻找 的 。 


我 们 解决 这 个 问题 ， 首 先 通过 使 所 有 规则 和 非 终结 符 都 是 “不 知道 "的 。 现 在 
我 们 来 看 图 Fig 2.27 的 语法 ， 对 于 每 一 条 我 们 不 知道 的 规则 ， 其 右 侧 的 成 员 
都 是 生成 性 的 ， 那 我 们 就 标记 这 条 规则 和 它 定义 的 非 终结 符 为 “生成 性 ”的 。 
这 将 为 规则 A--->a, C--->c, 以 及 E--->e 产 生 标记 ， 还 有 非 终结 符 A, CHE 。 


现在 我 们 知道 的 更 多 了 ， 并 且 可 以 将 这 些 用 于 对 语法 的 第 二 轮 扫描 了 。 这 
使 我 们 能 标记 规则 B--->bC 以 及 非 终 结 符 BB， 因 为 现在 C 已 知 是 生成 性 的 
了 。 第 三 轮 确 定 了 S--->AB 和 S。 第 四 轮 没 有 产生 新 的 东西 ， 所 以 也 就 没有 
进行 第 五 轮 的 必要 了 。 


现在 我 们 知道 S, A, B, C 和 E 是 生成 性 的 ， 但 是 D、F 以 及 规则 S--->DE 还 是 
标记 “不 知道 "的 。 然 而 我 们 知道 了 更 多 的 : 知道 我 们 尝试 了 生成 性 的 所 有 可 
能 路 径 ， 并 且 没 有 为 D、F 以 及 S 的 第 二 条 规则 找到 任何 可 能 的 路 径 。 这 意 
味 着 我 们 现在 可 以 更 新 一 下 对 于 “ 非 生 成 性 "的 “不 确定 性 ”的 信息 了 。D、F 的 
规则 以 及 S 的 第 二 条 规则 可 以 从 语法 中 移 除 了 ; 结果 如 果 Fig 2.28 所 示 。 这 
就 使 得 D、F 成 为 了 未 定义 的 ， 而 S 仍 然 留 在 语法 中 因为 它 是 生成 性 的 ， 虽 
然 有 一 个 非 生成 性 规则 。 


S, — AB 
A — a 
B 一 bc 
C — c 
E — e 


Fig. 2.28. The demo grammar after removing non-productive rules 


看 看 当 语法 中 包含 一 个 未 定义 的 非 终结 符 ， 例 如 U， 将 会 发 生 什么 ， 是 一 
件 有 趣 的 事情 。 首 先 U 将 被 预定 义 为 “不 知道 "的 ， 而 因为 没有 规则 定义 它 ， 
它 将 一 直 保 持 “ 不 知道 ?状态 。 因 此 ， 任 何 右 侧 有 着 U 的 规则 尺 都 将 会 是 “不 知 
道 " 的 。 最 终 两 者 都 会 被 定义 为 " 非 生 成 性 "的 ， 然 后 所 有 的 尺 规 则 都 会 被 移 
除 。 可 以 看 到 “未 定义 的 非 终 结 符 " 只 是 “ 非 生 成 性 "的 非 终 结 符 的 一 种 特殊 情 
JL: 因为 它 没 有 规则 ， 所 以 他 是 非 生成 性 的 。 


上 述 知 识 改进 的 算法 使 我 们 关于 闭 包 算法 的 第 一 个 例子 。 闭 包 算 法 有 两 个 
主要 特点 : 初始 化 ， 是 对 最 初 了 解 的 一 个 评估 ， 部 分 源 于 其 现状 和 “不 知道 
的 "部 分 ; 推导 规则 ， 介 绍 从 几 个 地 方 获取 的 信息 是 如 何 结合 的 。 对 于 我 们 
的 问题 的 推导 规则 是 


对 于 每 一 个 我 们 知道 其 右 侧 的 所 有 成 员 都 是 生成 性 的 规则 ， 标 记 它 定义 的 
规则 和 非 终结 符 为 “生成 性 ”的 。 


推导 规则 一 直 重 复 直到 没有 不 在 有 任何 变化 ， 这 一 点 在 闭 包 算法 中 是 隐 式 
的 。 然 后 初步 的 “不 知道 "类 型 就 会 变 成 一 个 更 明确 的 “ 非 X”，“X”" 是 算法 被 设 
定 来 检测 的 属性 。 


因为 预先 知道 所 有 依旧 是 “不 知道 ” VE que 非 X”， 所 以 许多 
闭 包 算法 的 描述 和 实现 直接 跳 过 整个 "不 知道 ?步骤 ， 而 直接 初始 化 所 有 的 
为 " 非 X"。 在 执行 中 ， 这 不 会 有 太 大 差别 ， ROCA UE 
在 计算 机 中 而 是 在 程序 员 脑 中 ， 但 是 在 打印 书本 描述 中 这 种 做 法 就 是 不 优 
雅 的 也 是 让 人 疑惑 的 ， 因 为 初始 化 语法 中 的 所 有 非 终 结 符 为 “ 非 生成 性 "是 不 
正确 的 。 


本 书 中 我 们 会 看 到 很 多 闭 包 工法 的 例子 ; 在 3.9 节 中 会 有 详细 的 讨论 。 


2.9.5.2 移 除 不 可 到 达 的 非 终 结 符 


一 个 非 终 结 符 存 在 至 少 一 个 句子 形式 就 可 以 称 为 是 可 到 达 的 或 可 访问 的 ， 
从 开始 出 现 的 起 始 符号 开始 。 所 以 如 果 对 一 些 a 和 B 存 在 S。 aAB 那 么 非 终 
结 符 A 就 是 可 到 达 的 。 


我 们 通过 找到 “生成 性 "的 规则 和 非 终 结 符 来 找到 非 生 成 性 的 那些 。 同 样 的 ， 
我 们 通过 找到 可 到 达 的 非 终结 符 来 找到 不 可 到 达 的 那些 。 为 此 ， 我 们 可 以 
使 用 以 下 的 闭 包 算法 。 首 先 ， 起 始 符 号 被 标记 为 “可 到 达 的 ”; 这 就 是 初始 
化 。 然 后 ， 语 法 中 每 一 个 标记 了 A 的 A 一 aq 形式 的 规则 ，q 中 所 有 的 非 终 结 符 
oe ; 这 就 是 推导 规则 。 我 们 持续 应 用 推导 规则 直到 不 再 有 变化 产 

o IER EIUSDEM 结 符 就 是 不 可 到 达 的 ， 而 他 们 对 应 的 规则 可 
e. o 


第 一 轮 标 记 A 和 B ; 第 二 轮 标 记 C， 第 三 轮 没 有 任何 不 变化 。 结 果 就 是 -- 一 
个 干净 的 语法 -- 见 图 Fig 2.29。 如 图 Fig 2.27 中 可 到 达 和 生成 性 的 规则 E--- 
>e， 子 啊 移 除非 生成 性 规则 后 变 成 了 孤立 的 ， 然 后 被 第 二 步 的 清理 算法 给 
删除 掉 了 。 


wv 


QU». 


Vive 
an Dp p 
a tj 


Fig. 2.29. The demo grammar after removing all useless rules and non-terminals 


除 不 可 到 达 的 规则 不 会 导致 在 一 个 可 到 达 的 规则 中 使 用 的 非 终 结 符 N 变 
B ono che ernie: Chen m C 
但 是 又 因为 N 已 经 是 可 到 达 的 ， 所 以 上 诉 过 程 将 不 会 移 除 它 的 任何 一 条 规 
则 。 对 相同 参数 的 稍微 修改 可 以 看 出 移 除 不 可 到 达 的 规则 不 能 导致 一 个 在 
可 到 达 规 则 中 使 用 的 非 终结 符 N 变 成 非 生成 性 的 : 生成 性 的 N， 和 否则 无 法 在 
前 面 的 清理 步骤 中 留存 下 来 ， 只 能 通过 移 除 它 的 定义 规则 来 使 之 成 为 非 生 
成 性 的 ， 但 是 由 于 N 是 可 到 达 的 ， 上 面 的 过 程 将 不 会 移 除 它 的 任何 规则 © 
这 最 后 表明 在 移 除 了 非 生成 性 的 非 终 结 符 以 及 移 除 了 不 可 到 达 的 非 终结 符 
之 后 ， 我 们 没有 必要 再 做 一 遍 移 除非 生成 性 的 非 终 结 符 。 


然而 有 趣 的 是 请 注意 ， 如 果 先 移 除 不 可 到 达 的 非 终结 符 然后 在 移 除 非 生成 
性 的 规则 将 有 可 能 导致 语法 再 次 含有 不 可 到 达 的 非 终 结 符 。 图 Fig 2.27 的 语 
法 是 一 个 例子 。 


non Eo A aa 
的 规则 ， 描 述 空 语言 的 语法 就 是 例子 ; W267 © 
移 除 非 生 成 性 规则 是 一 个 自 底 向 上 的 过 程 : 只 有 底层 ， 终 结 符 所 处 的 位 


置 ， 才 能 知道 哪些 是 生成 性 的 。 移 除 不 可 到 达 的 非 终结 符 是 一 个 自 顶 向 下 
的 过 程 : 只 有 顶层 ， 起 始 符号 所 处 的 位 置 ， 才 知道 哪些 是 可 到 达 的 。 


2.10 设 定 上 下 文 无 关 和 正则 语言 的 属 
性 


由 于 语言 是 集合 ， 所 以 很 自然 会 问 到 集合 的 标准 操作 一 一 并 集 、 交 集 和 补 
集 (补充 ) 一 一 是 否 能 用 在 语言 上 ， 如 果 可 以 ， 要 怎么 做 。 


S1 和 S2 的 并 集 包含 两 两 个 集合 中 的 全 部 元 素 ; 写作 S1US2。 交 集 包含 了 两 
个 集合 中 的 共同 元 素 ; 写作 S1nS2 。S 的 补 集 包含 了 属于 但 不 属于 S 的 元 
Xi: 写作 、'S。 在 正式 语言 的 上 下 文中 ， 这 些 集合 是 通过 语法 定义 的 ， 所 
以 实际 上 我 们 是 想 要 对 语法 进行 操作 ， 而 不 是 语言 。 


为 两 种 语言 的 并 集 构建 语法 ， 对 上 下 文 无 关 和 正则 语言 来 说 是 繁 正 的 ( 实 
际 上 对 所 有 Chomsky 类 型 都 是 ) : 仅仅 构建 一 个 新 的 起 始 符号 
S'S1|S2，S1 和 S< 是 描述 两 种 语言 的 语法 的 起 始 符号 。 (当然 ， 如 果 我 
们 想 结合 两 种 语言 成 为 一 种 新 的 ， 那 我 们 必须 确保 他 们 之 中 的 名 字 是 不 同 
的 ， 不 过 这 是 很 容易 的 事情 。) 


然而 交集 是 另 一 回 事 ， 因 为 两 个 上 下 文 无 关 语 言 的 交集 并 不 一 定 是 上 下 文 
无 关 的 ， 如 以 下 示例 所 示 9 有 两 个 语言 LT = anbnem® L2 = ambnen ， 他 
们 由 CF 语言 描述 


当 我 们 拿 到 一 个 同时 属于 两 个 语言 的 字符 串 放 入 交集 时 ， 就 有 了 apbqcr 这 
种 形式 ， 而 由 于 L1 和 1L2 其 中 p = q 以 及 q =1。 所 以 交集 中 包含 anbncn 这 样 
形式 的 字符 事 ， 而 我 们 知道 这 样 的 语言 不 是 上 下 文 无 关 的 ( 见 2.7.1 节 ) © 
CF 语言 的 交集 有 一 些 奇 特 的 属性 。 第 一 ， 两 个 CF 语言 的 交集 总 是 有 一 个 1 
型 语法 一 一 但 这 个 语法 却 不 容易 构建 。 更 值得 注意 的 是 ， 三 个 CF 语言 的 交 
集 比 两 个 的 交集 要 强大 的 多 : Liu 和 Weiner[390] 表 明 ， 可 以 获得 K 个 CF 语 





言 的 交集 ， 而 不 是 Kk-1 个 。 除 此 之 外 ， 任 何 1 型 语言 ， 甚 至 任何 0 型 语言 ， 可 
以 通过 两 个 CF 语言 的 交集 来 构建 ， 我 们 就 能 探 除 结果 字符 囊 中 的 所 有 属于 
可 擦 除 符号 集中 的 符号 。 


我 们 将 用 来 演示 这 个 惊人 现象 的 CS 语言 ， 是 由 两 个 相同 部 分 的 句子 组 成 的 
集合 : ww，W 是 给 定 字符 集中 的 任何 字符 串 ; 例如 aa 和 abbababbab。 用 
来 相交 的 两 个 语言 由 以 下 定义 : 

|bQls 
alycble 
其 中 X 和 y 是 可 擦 出 符号 。 第 一 个 语法 生成 的 字符 串 由 三 个 部 分 组 成 ，a 和 b 
的 序列 A1， 其 次 是 其 “黑暗 镜像 "M1，a 对 应 x，b 对 应 y， 再 接着 是 a 和 bb 的 
一 个 任意 序列 G1。 第 二 个 语法 生成 的 字符 囊 包 含 ，a 和 b 的 一 个 任意 序 

列 G2， 一 个 “黑暗 "序列 M2 以 及 它 的 镜像 A2， 其 中 再 次 a 对 应 xX ，b 对 应 y 。 
交集 强制 A1 =G2, M1 =M2,and G1 =A2。 这 使 得 A2 成 为 了 A 镜像 的 镜 
> ARAL SEH REP 的 一 个 句子 示例 如 abbabyxyyxabbab， 我 
们 可 以 看 到 其 镜像 abbab 和 yxyyx。 现 在 我 们 擦 除 可 擦 除 符号 x 和 y， 就 得 
到 了 最 后 的 结果 abbababbab © 


通过 使 用 应 用 上 述 镜像 ， 就 能 够 很 简单 的 证 明 任 何 0 型 语言 能 够 通过 两 个 
CF 语 言 的 交集 ， 加 上 一 组 可 擦 除 符号 来 构建 了 。 详 细 介 绍 ， 见 Revesz 
[394] 。 


注意 ， 一 个 上 下 文 无 关 和 一 个 正则 语言 的 交集 ， 一 般 都 是 一 个 上 下 文 无 关 
语言 ， 并 且 ， 有 一 个 相关 的 简单 算法 来 为 这 个 交集 语言 构建 一 个 语法 。 这 
让 非凡 的 解析 算法 得 到 了 增长 ， 浙 江 在 13 章 进行 讨论 。 

如 果 我 们 不 能 得 到 两 个 CF 语言 的 交集 ， 并 且 仍 处 于 CF 语言 中 ， 那 我 们 肯定 
不 能 得 到 一 个 CF 语言 的 补 集 并 仍 在 CF 语言 中 。 如 果 我 们 能 得 到 ， 我 们 就 能 
得 到 两 个 语言 的 补 集 ， 让 后 取 其 交集 然后 在 取 其 补 集 ， 最 后 就 得 到 它们 的 
eo BALI NAL? = LU 12) ; 这 个 公式 就 是 大 家 熟知 的 


De Morgan 定 律 (De Morgan’s Law) 。 


在 5.4 节 我 们 将 会 看 到 正则 (3 型 ) 语言 和 正则 语言 的 并 集 ， 交 集 和 补 集 。 


有 趣 的 是 推测 一 下 将 会 有 什么 发 送 ， 如 果 正 式 语 言 是 基于 集合 理论 ， 一 开 
始 就 使 用 所 有 的 集合 操作 ， 而 不 是 Chomsky 层 次 理论 。 那 么 上 下 文 无 关 语 
言 还 会 被 发 明 么 ? 


2.11 语义 连接 


有 时 解析 只 服务 于 检测 一 个 字符 串 的 正确 性 ; 字符 串 符合 给 定 的 语法 就 是 
我 们 想 要 知道 的 ， 例 如 因为 它 证 实 了 我 们 某 些 观察 模式 的 猜想 ， 那 确定 就 
是 被 我 们 特意 为 之 设计 的 语法 正确 描述 的 。 然 而 ， 一 般 情况 下 ， 我 们 想 要 
做 的 更 多 : 我 们 知道 字符 串 都 传达 一 种 含义 ， 一 种 语义 ， 而 且 这 种 语义 直 
接 与 这 个 字符 串 的 生成 树 的 结构 相关 。 (如 果 不 是 ， 那 我 们 就 弄 错 了 语 
il) 


语法 附加 语义 是 通过 一 个 非常 简单 但 有 效 的 方式 完成 的 : 语法 中 的 每 一 个 
规则 ， 其 规则 右 侧 成 员 语 义 相 关 的 一 个 语义 子 句 被 附加 在 其 左 侧 的 语义 

上 ， 这 种 情况 下 语义 从 生成 树 的 节点 直接 流向 起 始 符号 ; 或 者 反 过 来 说 ， 
这 种 情况 下 ， 语 义 反 向 从 起 始 符号 流向 节点 ; 又 或 者 同时 的 ， 在 这 种 情况 
下 ， 语 义 信 息 一 会 向 上 一 会 向 下 流动 ， 直 到 达到 某 个 稳定 状态 。 语 义 信息 
向 下 的 流动 称 为 继承 : 生成 树 上 的 每 个 规则 从 其 父 节点 继承 语义 。 语 义 信 
息 向 上 流动 称 为 派生 : 每 一 个 规则 由 其 子 节点 派生 。 


有 许多 方式 来 表达 语义 子 句 。 因 为 我 们 的 主题 是 解析 和 语法 而 不 是 语义 ， 

我 们 将 只 会 简要 描述 两 个 经 常用 到 并 得 到 充分 研究 的 技术 : 属性 语法 和 转 
导语 法 。 我 们 会 使 用 同一 个 简单 例 BET ， 一 位 数 数 字 的 总 和 的 语言 ; 

这 个 语言 的 句子 的 语义 是 总 和 的 值 。 这 个 语言 由 图 Fig 2.30 的 语法 生成 。 例 
如 他 的 一 个 句子 是 3+5+1 ; 其 语义 就 是 9。 


I; Sum 一 Digit 
2. Sum 一 Sum + Digit 
3. Digit > 0/1 |-::- | 9 


Fig. 2.30. A grammar for sums of one-digit numbers 


2.11.1 属性 语法 


属性 语法 中 的 语义 子 句 假设 生成 树 的 每 一 个 节点 都 有 空间 给 一 个 或 多 个 属 
性 ， 这 些 属性 就 是 放 在 生成 树 节点 上 的 值 (数字 ， 字 符 串 或 其 他 东西 ) 。 
为 简单 起 见 ， 我 们 限定 这 个 属性 语法 每 个 节点 只 有 一 个 属性 。 这 种 语法 中 
一 个 规则 的 语义 子 句 包含 一 个 公式 ， 用 以 计算 一 个 规则 (由 生成 树 的 节点 展 
示 ) 中 的 一 些 非 终结 符 着 这 个 规则 的 其 他 终结 符 。 这 些 语义 动作 之 和 规则 的 
本 地 属性 关联 : 整体 的 语义 由 所 有 本 地 计算 的 结果 构成 。 


如 果 规 则 RR 的 语义 子 句 计算 RR 左 侧 的 属性 ， 这 个 属性 会 派生 。 如 果 它 计算 RR 
的 右 侧 非 终结 符 的 属性 ， 例 如 A， 那 这 个 属性 就 被 A 继承 。 派 生 属性 也 被 称 
为 “合成 属性 ”。 我 们 例子 的 属性 语法 是 : 


1. Sum, — Digit {Ap := A1] 

2. Sum —> Sum + Digit {Ao = Ay +A3} 
3a. Digit —> 0 {Ao := 0} 

3. Digit 一 9 {Ao := 9} 


花 括号 中 给 出 了 语义 子 名 - ARAMA ORE) 属性 ; AT ATE AM 
成 员 的 属性 。 通 常 来 说 ， 右 侧 的 终结 符 也 计 入 A 的 索引 ， 虽 然 它们 (通常 ) 
不 携带 属性 ; 规则 2 的 Digit 在 位 置 3 并 且 其 属性 值 为 A3 。 用 于 处 理 属性 语法 
的 大 多 数 系统 都 少 有 重复 的 方式 来 通过 3j 表 达 3a 。 


3+5+1 的 初始 生成 树 在 图 Fig 2.31 中 给 出 。 首 先 只 有 节点 的 属性 的 明确 
的 ， 但 是 到 生成 树 的 一 个 右 侧 的 所 有 属性 都 明确 后 ， 我 们 就 能 使 用 它 的 语 
义 子 句 来 计算 它 的 左 侧 了 。 这 种 方式 下 ， 属 性 值 (语义 ) 渗透 到 树 上 ， 最 
后 到 达 起 始 符号 ， 并 提供 给 我 们 全 句 的 含义 ， 如 图 Fig 2.32 所 示 。 属 性 语法 
是 非常 强大 的 操控 语言 语义 的 方式 。 这 些 将 会 在 15.3.1 节 中 详细 讨论 。 





Fig. 2.31. Initial stage of the attributed production tree for 3+5+1 


2.11.2 转 叶 语法 


转 导 语法 将 一 个 字符 串 (“输入 字符 囊 ”") 的 语义 定义 为 另 一 个 字符 串 ，" 输 
出 字符 串 ”， 而 不 是 起 始 符号 的 最 终 属性 


Ap =9 





Fig. 2.32. Fully attributed production tree for 3+5+1 


这 种 方法 没 那么 强大 ， 但 比 起 属性 语法 却 更 简单 并 且 也 够 用 了 。 生 成 规则 
中 的 语义 子 句 只 是 应 该 在 对 应 节点 输出 的 字符 串 。 我 们 假设 一 个 节点 的 字 
Poo dg 的 字符 串 后 输出 。 其 他 的 变种 是 可 能 的 并 且 很 正 

。 我 们 现在 可 以 编写 一 个 转 导 语法 ， 其 将 数字 之 和 转换 为 计算 机 指令 之 


e 
1 Sum, — Digit "make it the result" 
2. Sum — Sum + Digit "add it to the previous result" 
3a. Digit —> 0 "take a 0" 
3. Digit —> 9 "take a 9" 


这 个 转 导 语法 将 3+5+1 转 换 为 : 


take a 3 

make it the result 

take a 5 

add it to the previous result 
take a 1 

add it to the previous result 


i 3L 345418 3:89" XE 3L" o 


2.11.2 转 导语 法 


110 


2.11.3 增 广 转换 网 络 


语义 可 以 被 引入 一 个 递归 过 渡 网 络 (2.8 节 ) ， 通 过 附加 动作 到 图 形 的 转换 
中 。 这 些 动作 可 以 设置 变量 ， 构 造 数据 结构 ， 等 。 因 此 增强 的 递归 转换 网 
络 被 称 为 增 广 过 渡 网 络 (或 ATN) (Woods [378]) ° 


2.12 语法 类 型 的 隐喻 比较 


教科 书 声称 “hn 型 语法 比 n+1 型 语法 更 强大 ，n=0，1，2”， 并 且 经 常 可 以 读 

到 这 样 的 语句 “一 个 正则 (378) 语法 不 够 强大 以 匹配 括号 内 的 "。 有 趣 的 

是 ， 看 看 到 底 是 什么 样 的 力量 。 天 真 ， 一 个 人 可 能 以 为 它 的 力量 是 生成 越 

nen | 但 这 明显 是 不 正确 的 : 最 大 的 可 能 的 集合 > ， 可 以 很 容易 
由 3 型 语法 生成 : 


SS --->[z]S| £ 


[二 是 语言 中 符号 的 缩写 。 只 是 当 我 们 想 要 限制 这 个 集合 时 ， 我 们 就 需要 更 
强大 的 语法 。 更 强大 的 语法 可 以 在 正确 和 不 正确 的 句子 间 定 义 更 复杂 的 边 
界 。 有 的 边界 定义 的 太 好 导致 没有 任何 语法 能 描述 它 (也 就 是 ， 通 过 任何 
生成 过 程 ) 。 


这 个 想法 在 图 Fig 2.33 中 进行 了 比喻 描述 ， 图 中 一 支 玫 瑰 由 越 来 越 细 的 轮廓 
接近 。 在 这 个 比喻 中 ， 玫 瑰 代 表 语 言 (想象 语言 中 的 句子 就 是 玫瑰 的 分 
T) ; 语法 就 是 为 了 描绘 它 的 轮廓 。 一 个 正则 语法 只 允许 我 们 用 水 平 直线 
fo-& BARRACK ; 直 尺 和 T 型 尺 就 够 了 ， 但 结果 只 是 一 个 粗 陋 和 机 械 
的 图 片 。CF 语 法 能 通过 各 个 角度 的 直线 和 圆 缴 近似 描绘 ; 图 画 还 是 可 以 使 
用 传统 的 圆规 和 直 尺 就 够 了 。 最 终结 果 很 生硬 但 好 歹 能 辨认 了 。CS 语 法 可 
以 让 我 们 用 平滑 的 曲线 包围 花 人 条 了 ， 但 是 曲线 太平 滑 了 : 它 无 法 表现 尖 
角 ， 而 且 偏 离 了 复杂 的 交点 ; 不 过 ， 依 日 有 了 非常 逼 趴 的 效果 图 。 不 受 限 
制 的 短语 结构 语法 可 以 完美 展现 大 概 轮 廊 。 一 采 玫 瑰 不 可 能 被 限定 在 一 
限定 的 描述 中 ; 其 本 质 永远 都 是 我 们 嗪 无 法 企及 的 。 


一 个 更 简单 更 有 效 的 例子 ， 可 以 在 一 个 能 通过 多 种 语法 类 型 生成 的 Java | 程 
序 的 继承 集合 中 找到 。 


e 所 有 词法 正确 的 Java 程 序 可 以 通过 一 个 正则 语法 生成 。 一 个 Java 程 序 
词法 是 正确 的 ， 如 果 字 符 串 中 没有 换行 符 ， 评 论 在 文件 结尾 时 被 终 
止 ， 且 所 有 数值 常量 都 是 正确 形式 ， 等 等 。 


所 有 语法 正确 的 Java 程 序 都 可 以 通过 一 个 上 下 文 无 关 语 法 生成 。 这 些 
程序 在 理论 上 都 符合 (CF) 语法 。 

所 有 语义 上 去 的 Java 程 序 都 可 以 通过 一 个 CS 语法 生成 。 这 些 都 是 通过 
一 个 Java 编 译 器 没有 抛 出 错误 信息 的 程序 。 

在 有 限时 间 内 运行 给 定 输入 会 终止 的 所 有 Java 程 序 可 以 通过 一 个 无 限 
制 的 短语 结构 语法 生成 。 然 而 ， 这 种 语法 会 非常 复杂 ， 因 为 它 会 包含 
Java 库 的 进程 和 Java 运 行 时 间 系 统 的 详细 描述 。 

解决 给 定 问 题 〈 例 如 ， 下 棋 ) 的 所 有 Java 程 序 不 能 通过 一 个 语法 ( 尽 
管 集合 的 描述 时 有 限 的 ) 生成 。 
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Fig. 2.33. The silhouette of a rose, approximated by Type 3 to Type 0 grammars 
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它 。 对 于 手册 所 给 一 个 CF 语 法 的 ， 任 何 一 种 编程 语言 都 





2.13 总 结 


Chomsky 语 法 是 一 种 有 限 的 机 制 ， 产 生 通 常 是 无 限 集合 的 字符 囊 ， 一 门 “ 语 
言 "。 不同 于 其 他 许多 集合 生成 机 制 ， 这 种 生成 过 程 指 派 一 个 结构 给 生成 的 
字符 串 ， 可 以 用 来 向 其 附加 语义 。 对 于 上 下 文 无 关 语法 (2 型 ) ， 这 种 结构 
是 一 棵 树 ， 允 许 语义 由 分 支 的 语义 组 成 。 这 是 上 下 文 无 关 语 法 的 重要 性 的 

基础 。 


问题 


问题 2.1 : 2.1.3.4 节 的 对 角 化 似乎 是 一 个 不 在 列表 上 语言 的 有 限 描 述 。 为 什 
么 这 个 描述 不 在 列表 上 ， 列 表 可 是 包含 所 有 有 限 描述 的 ? 


问题 2.2 : 在 2.1.3.4 节 中 ， 我 们 考虑 函数 n,n+10 和 2n， 来 找到 应 该 有 别 于 
行 n 的 位 的 位 置 。 这 些 函 数 的 一 般 形式 是 什么 ， 既 ， 什 么 样 的 函数 集合 可 以 
生成 不 具有 有 限 描述 的 语言 ? 

问题 2.3 : 位 Manhattan 旬 路径 设计 一 个 语法 ， 使 其 从 其 起 点 开始 不 允许 向 
feto 

问题 2.4 : 图 Fig 2.759 3-38 120 18 LE ALPE ral pl cs AEH n21- 
为 什么 n=0 排 除 在 外 ?3 

问题 2.5 : 设计 一 个 1 型 语法 ， 可 以 生成 包含 两 个 相同 部 分 的 所 有 字符 串 的 
语言 : WW，W 是 给 定 字 母 表 ( 见 2.10) 的 任何 字符 串 。 

问题 2.6 : 在 2.4.1 节 ， 我 们 有 句子 生成 机 制 ， 将 新 创建 的 句子 形式 添加 到 队 
列 结 尾 ， 并 声称 这 实现 了 广度 优先 生成 。 当 我 们 将 它 放 在 队列 开头 时 ， 机 
制 采用 深度 优先 生成 。 说 明 这 是 不 起 作用 的 。 

问题 2.7 : 2.4.1 节 的 最 后 一 段 中 说 到 “在 增加 (实际 上 是 ' 不 减少 ') 的 长 
度 ”。 解 释 为 什么 说 是 “不 减少 "就 足以 表明 。 

问题 2.8 : 将 一 个 没有 递归 的 语法 生成 的 有 限 语言 的 字符 串 数 量 与 该 语法 的 
结构 关联 。 

问题 2.9 : 查阅 2.6 节 。 在 你 的 计算 环境 中 找到 更 多 的 例子 ， 零 作为 一 个 数 
字 得 到 二 等 对 待 。 

问题 2.10 : 在 你 最 喜欢 的 解析 器 生成 器 系统 中 ， 为 语言 {e} 写 一 个 解析 器 。 
同样 也 为 语言 们 写 一 个 解析 器 。 

问题 2.11 : 使 用 uyw 理 论 (2.7.2 节 ) ， 说 明 对 于 语言 aib/ 没 有 可 用 的 3 型 语 
法 。 


问题 2.12 : 在 2.9 节 我 们 说 到 ， 无 用 的 规则 可 以 被 从 语法 中 移 除 掉 而 不 影响 
语言 的 生成 。 这 似乎 是 表明 “其 移 除 不 影响 语言 "就 是 我 们 所 希望 的 ， 而 不 是 
仅仅 是 没有 无 用 的 。 注 释 。 


问题 2.13 : 根据 2.2.2 节 ， 写 一 个 Chomsky 生 成 过 程 ， 作 为 一 个 闭 包 算法 。 


3 解析 简介 


根据 语法 来 分 析 字 符 串 意味 着 重建 生成 树 ， 以 展示 给 定 字符 串 是 如 何 通过 
给 定语 法 生成 的 。 在 这 方面 它 有 重要 意义 ， 第 一 个 解析 方面 的 出 版 物 
(Greibach 的 1963 年 博士 论文 [6]) ,命名 为 “逆向 短语 结构 生成 

z” (Inverses of Phrase Structure Generators) ， 而 短语 结构 生成 器 被 理 
解 为 一 个 从 短语 结构 (事实 上 是 上 下 文 无 关 ) 语法 生成 短语 的 系统 。 


虽然 基于 0 型 或 1 型 语法 生成 句子 产生 的 是 生成 图 而 不 是 生成 树 ， 并 因此 解 
析 得 到 了 解析 图 ， 我 们 应 该 使 用 2 型 ， 上 下 文 无 关 语法 ， 以 专注 于 解析 以 及 
后 的 解析 树 。 偶 尔 我 们 会 触及 基于 0 型 或 1 型 语法 的 解析 ， 例 如 3.2 节 ， 只 
为 了 展示 它 是 一 个 有 意义 的 概念 。 


fe 部 


3.1 解析 树 


关于 重建 解析 树 有 两 个 重要 的 问题 : 我 们 为 什么 需要 它 ; 我 们 如 何 实 现 


> 
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恢复 生成 树 的 需求 是 不 自然 的 。 毕 竟 ， 语 法 是 一 组 字符 串 的 凝聚 态 描述 ， 
既 语 言 ， 并 且 也 许 我 们 的 输入 字符 串 可 能 属于 或 者 不 属于 这 个 语言 ; 没有 
涉及 内 部 结构 或 生成 路 劲 。 如 果 我 们 坚持 这 个 正式 观点 ， 我 们 可 以 问 的 唯 
一 有 意义 的 问题 就 是 ， 一 个 给 定 的 字符 串 是 否 可 以 被 一 个 语法 识别 ; 任何 
关于 如 何 做 的 问题 都 是 无 意义 的 标志 ， 甚 至 只 能 是 一 种 好 奇 心 的 表示 。 然 
而 在 实践 中 ， 附 加 了 语义 的 语法 : 特定 的 语义 附加 到 特定 的 规则 ， 而 且 为 
了 确定 一 个 字符 串 的 语义 ， 我 们 需要 找 出 在 参与 了 其 生成 过 程 的 规则 以 及 
是 如 何 参 与 的 。 总 之 ， 识 别 是 不 够 的 ， 我 们 还 需要 恢复 生成 树 以 得 到 句法 
方式 的 全 部 优势 。 


被 恢复 的 生成 树 称 为 解析 树 。 在 0 型 和 1 型 语法 中 ， 将 语义 附加 到 特定 规则 
几乎 是 不 可 能 的 事实 说 明了 它们 在 解析 中 的 微不足道 ， 相 比 于 2 型 和 3 型 语 
法 。 


如 何 重 建生 成 树 是 本 书 余下 部 分 的 主题 。 


3.1.1 解析 树 的 大 小 


一 个 有 n 标 记 的 字符 串 的 解析 树 由 属于 终结 符 的 n 个 节点 ， 在 加 上 大 量 属 于 
非 终结 符 的 节点 组 成 。 令 人 惊讶 的 是 ， 不 能 有 多 于 CGn 的 属于 非 终 结 符 的 
节点 ， 在 hn 标记 节点 的 一 个 解析 树 中 ，CG 是 由 语法 决定 的 一 个 常量 ， 证 明 
语法 没有 循环 。 这 意味 着 ， 任 何 解析 树 的 大 小 都 是 线性 的 ， 根 据 输入 的 长 
度 o 


表明 确实 需要 用 一 系列 步骤 来 完成 。 我 们 首先 证 明 对 语法 来 说 所 有 右 侧 都 
是 长 度 2 ; 这 就 导致 了 二 又 树 ， 树 上 每 个 节点 要 么 有 两 个 子 节点 要 么 就 是 叶 
子 (没有 子 节 点 的 节点 ) 。 二 又 树 有 着 显著 的 特点 ， 所 有 的 给 定 树 叶 数 量 
的 二 又 树 都 有 同样 数量 的 节点 ， 而 不 在 乎 它们 的 形状 。 下 面 我 们 看 右 侧 长 
度 >2 的 语法 ， 接 着 有 单元 规则 的 语法 ， 最 后 是 可 为 空 规则 的 语法 。 


正如 我 们 说 的 ， 长 度 为 n 的 输入 字符 串 包含 n 标 记 的 节点 。 当 解析 树 尚 不 存 
在 时 ， 这 些 节点 是 没有 父 节 点 的 叶子 。 现 在 我 们 来 构建 一 棵 二 又 树 来 给 每 
个 叶子 一 个 父 节点 ， 父 节点 都 标记 了 来 自 语法 的 非 终 结 符 。 第 一 个 父 节点 
P1 我 们 添加 的 ， 减 少 了 2 个 没有 父 节点 的 叶子 ， 但 是 现在 PI 自身 成 为 了 没 
有 父 节点 的 节点 ; 所 以 我 们 现在 有 n+1 个 节点 ， 其 中 hn-2+1 = n-1 个 节点 没 
有 父 节 点 了 。 同 样 的 事情 发 生 在 添加 的 第 二 个 父 节点 P2 上 ， 不 论 P1 是 否 是 
其 子 节点 ; 所 以 现在 我 们 有 n+2 个 节点 ， 其 中 -2 个 没有 父 节点 。j 步 之 后 ， 
我 们 就 有 了 n+tj 个 节点 ， 其 中 hjj 个 没有 父 节 点 ， 并 且 在 n-1 步 之 后 ， 我 们 就 
有 2n-1 个 节点 ， 其 中 1 个 没有 父 节 点 。 那 没有 父 节点 的 1 个 节点 就 是 根 节 
点 ， 然 后 解析 树 就 完成 了 。 所 以 我 们 看 到 ， 当 所 有 右 侧 长 度 是 2 时 ， 对 于 输 
入 长 度 是 n 的 解析 树 ， 和 包含 2n-1 个 系 软 但 ， 其 线性 在 n。 


如 果 有 的 右 侧 的 长 度 >2， 那 可 能 只 需要 更 少 的 父 节 点 来 构造 这 颗 树 。 所 以 
整 棵 树 的 大 小 可 能 会 小 于 2n-1， 并 且 肯 定 会 小 于 2n。 


如 果 语 法 包含 单元 规则 - A 一 B 形 式 的 规则 - 那么 添加 父 节 点 会 减少 无 父 节 
点 数 这 点 就 不 对 了 : 当 一 个 无 父 节 点 的 节点 BB 通过 规则 A 一 B 获 得 了 一 个 父 
节点 A， 它 就 不 再 是 无 父 节点 的 节点 了 ， 但 是 A 又 成 为 了 无 父 节点 的 节点 ， 
并 且 更 粮 的 是 ， 节 点 数 却 增加 了 一 个 。 并 且 可 能 有 必要 重复 这 个 过 程 ， 就 


是 说 使 用 规则 乙 一 A， 等 等 。 但 是 最 终端 元 规则 的 链 必定 会 走 到 尽头 ， 比 
如 尸 (所 以 我 们 有 了 P 一 Q…Z 一 A 一 B) ， 或 者 语法 中 就 有 一 个 环 。 这 意 
味 着 记 获 得 了 一 个 有 多 个 子 节 点 的 父 节 点 ， 然 后 无 父 节点 的 节点 数 减少 了 
( d &) 。 2 EE 做 的 最 糟糕 avi 青 就 是 “延长 "每 一 
个 节点 通过 构造 因子 Cu， 因此 解析 树 的 大 小 会 小 于 2Cun。 





如 果 语 法 包含 形式 A 一 这 样 的 规则 ， 只 有 数量 有 限 的 E 能 在 输入 的 相 邻 标 
记 中 被 识别 ， 或 者 语法 中 就 又 有 一 个 环 了 。 所 以 可 为 空 规则 能 做 的 最 糟糕 
的 事情 就 是 “延长 "输入 通过 构造 一 个 因子 Ch， 在 两 个 标志 之 间 被 识别 的 E 的 
最 大 数目 ， 还 有 解析 树 的 大 小 都 小 于 2CnCun， 其 线性 大 小 是 n。 


另 一 方面 ， 如 果 语 法 允许 包含 循环 ， 以 上 两 个 过 程 就 将 会 在 解析 树 中 引入 
无 限 延 伸 的 节点 ， 那 树 的 大 小 就 是 任何 大 小 了 。 


3.1.2 各 种 模糊 性 


一 个 语法 产生 的 句子 可 以 很 容易 拥有 多 于 一 个 的 生成 树 ， 既 ， 很 容易 有 多 
于 一 种 的 方式 来 生成 一 个 句子 。 从 正式 角度 来 看 ， 这 不 是 大 问题 (一 个 集 
合 不 会 计算 它 包含 了 一 个 元 素 多 少 次 ) ， 但 是 只 要 我 们 对 语义 感 兴趣 ， 那 
这 差别 就 很 重要 了 。 不 足 为 奇 的 是 ， 拥 有 多 个 生成 树 的 的 句子 被 称 为 模糊 
性 ， 但 是 我 们 必须 立即 区 分 本 质 的 模糊 性 和 和 貌似 的 模糊 性 。 差 异 来 源 于 我 
们 对 生成 树 本 身 并 不 感 兴趣 的 事实 ， 而 更 感 兴趣 于 它们 所 描述 的 语义 。 一 
个 歧义 句 是 貌似 模糊 性 的 ， 如 果 它 的 所 有 的 生成 树 都 描述 同样 的 语义 ; 如 
果 部 分 语义 不 不 同 ， 其 模糊 性 就 是 本 质 的 。“ 模 糊 " 的 概念 也 可 以 用 来 定 于 语 
法 : 语法 是 本 质 模糊 的 如 果 它 可 以 生成 一 个 本 质 模 糊 的 句子 ， 是 貌似 模糊 
的 如 果 它 能 生成 一 个 貌似 模糊 的 句子 (但 不 是 一 个 本 质 上 模糊 的 ) ， 以 及 
是 非 模 糊 性 的 如 果 都 不 能 生成 的 话 。 一 个 语法 的 可 能 模糊 性 测试 ， 间 9.14 
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图 Fig 3.1 给 出 了 一 个 简单 的 模糊 性 语法 。 注 意 规则 2 不 同 于 图 Fig 2.30 t 
的 。 


Í; Sum, 一 Digit { Ao:—A1 } 
2. Sum 一 Sum + Sum { Ap:=A,+A3 } 
3a. Digit 一 0 { 40:20 } 
3. Digit —> 9 { Ag:=9 } 


Fig. 3.1. A simple ambiguous grammar 


现在 3+5+1 有 了 两 个 生成 树 〈 图 Fig 3.2) ， 但 是 两 者 的 语义 是 一 样 的 :9。 
模糊 性 是 不 确定 的 。 然 而 如 果 我 们 把 + 变 成 -， 那 其 模糊 性 就 是 本 质 的 了 ， 
如 图 Fig 3.3。 图 Fig 2.30 的 非 模糊 性 语法 ， 当 + 变 成 -后 ， 依 日 是 非 模糊 性 ， 
并 且 保 持 正 确 的 语义 。 











Fig. 3.3. Essential ambiguity: the semantics differ 


奇怪 的 是 ， 语 言 也 可 以 是 模糊 性 的 : (上 下 文 无 关 ) 语言 ， 其 语法 没有 非 
模糊 性 的 。 这 样 的 语言 是 固有 模糊 性 的 。 语 言 L = al pc u aPpPe9 就 是 
一 个 例子 。L 上 中 的 句子 要 么 由 一 些 a 后 接着 一 组 组 套 的 b 和 Cc 的 序列 组 成 ， 要 
么 由 一 些 c 后 接着 一 组 组 套 的 a 和 bb 的 序列 组 成 。 例 句 : abcc，aabbc， 还 
有 aabbcc ; abbc 是 一 个 非 句 子 例子 。| 由 图 Fig 3.4 的 语法 生成 。 


S, — AB | DC 
A 一 a | aA 
B — bc | bBc 
D —> ab | aDb 
C — c | cC 


Fig. 3.4. Grammar for an inherently ambiguous language 


直观 的 说 ， 为 什么 L 是 模糊 性 的 是 相当 清晰 的 : 语法 的 任何 可 以 生 

成 ambncn 的 部 分 都 无 法 避免 生成 anbncn， 并 且 任何 可 以 生成 apPbPc9q 的 
部 分 都 无 法 避免 生成 aRPbPRcR 。 所 以 无 论 我 们 做 什么 ， 与 a，b，c 数 字 相 等 
的 形式 将 总 是 会 被 生成 两 次 。 但 真实 的 证 明确 实 无 法 做 到 ， 这 不 是 本 书 范 
围 之 内 的 东西 了 。 


3.1.3 解析 树 的 线性 化 


通常 构建 一 棵 实际 的 解析 树 是 不 方便 也 是 不 必要 的 : 相反 一 个 解析 器 可 以 
生成 一 列 规 则 编号 ， 这 意味 这 其 线性 化 了 解析 树 。 有 三 种 主要 方法 来 线性 
化 一 棵 解析 树 ， 前 级、 后 级 和 中 缓 。 前 组 表示 法 中 ， 每 一 个 节点 都 被 列 出 
通过 列 出 其 编号 然后 接着 是 子 节点 列表 的 前 级 ， 由 左 到 右 的 顺序 ; 这 给 了 
我 们 最 左 侧 的 推导 (图 Fig 3.2 的 右边 的 树 ) 


最 左 侧 :2 2 1 3c 13e 1 3a 


如 果 一 棵 解析 树 是 根据 这 个 方法 构建 的 ， 那 它 是 在 前 序 中 构建 。 在 前 级 表 
示 中 ， 每 一 个 节点 被 列 出 通过 列举 全 部 前 级 表示 按 从 左 到 右 的 顺序 ， 后 面 
接着 节点 自身 规则 的 编号 ; 这 给 了 我 们 最 右 侧 的 推导 (同一 棵 树 的 ) 


最 右 侧 : 3c 13e 123a 12 


这 在 后 序 中 构建 解析 树 。 中 组 表示 法 中 ， 每 个 节点 都 被 列举 ， 通 过 首先 给 
一 个 列举 在 括号 中 第 一 个 n 子 节点 的 中 级， 然后 接着 是 节点 的 规则 编号 ， 然 
后 接着 是 一 个 列举 在 括号 中 其 余子 节点 的 中 级 ; n 可 以 自由 选择 ， 甚 至 规则 
之 间 可 以 不 同 ， 但 是 hn = 1 是 正常 的 。 中 缀 在 派生 中 是 不 常见 的 ， 但 偶尔 是 
有 用 的 。n = 1 的 情况 被 称 为 左 角 推导 ; 在 例子 中 我 们 得 到 : 


左 角 : (((3c)1) 2 ((3e)1)) 2 ((3a)1) 


级 表示 法 需要 括号 来 使 我 们 从 中 重建 生成 树 。 最 左 和 最 右 推导 不 用 括号 
也 能 完成 ， 使 我 们 准备 好 语法 来 找到 每 个 节点 的 子 节 点 数 。 
很 容易 区 分 一 个 推导 是 最 左 还 是 最 右 的 : 一 个 最 左 推导 开始 于 起 始 符号 的 
一 个 规则 ， 而 一 个 最 右 推导 开始 于 只 生成 终结 符 的 一 个 规则 。 (如 果 两 个 
条 件 同时 成 立 ， 那 只 有 一 个 规则 可 以 ， 可 以 同时 是 最 左 和 最 右 推 导 的 。) 
几 个 不 同 推导 的 存在 不 应 该 与 模糊 性 混为一谈 。 不 同 的 推导 只 是 同一 个 生 
成 树 的 符号 变形 。 对 于 其 不 同 没 有 不 同 的 语义 可 以 附加 。 


3.1.3 解析 树 的 线性 化 
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3.2 解析 一 个 包子 的 两 种 方法 


一 个 句子 和 其 起 源 的 语法 之 问 的 基本 联系 就 是 解析 树 ， 解 析 树 描述 了 语法 
是 如 何 生 成 一 个 句子 的 。 为 了 这 种 连接 的 重建 ， 我 们 需要 一 种 解析 技术 。 
当 我 们 查阅 解析 技术 方面 的 文档 时 ， 我 们 似乎 找到 了 几 十 个 ， 不 过 却 只 有 
两 个 是 解析 方面 的 ; 其 余 的 都 是 技术 细节 和 点 级 。 


第 一 种 方法 尝试 去 模仿 初始 生成 过 程 ， 通过 重新 推导 从 起 始 符号 推导 RA 
子 。 这 种 方式 被 称 为 自 顶 向 下 ， 因 为 解析 树 是 从 上 向 下 重 构建 的 。| 
第 二 种 方式 试图 回 滚 生 成 过 程 并 减少 回 到 起 始 符号 的 判定 。 自 然 的 这 种 方 
式 就 被 称 为 自 底 向 上 。 
.在 计算 机 中 ， 树 的 生长 过 程 是 从 根 向 下 生长 的 ; 这 与 物理 学 中 有 一 
A ft BH AFA Ro e 


3.2.1 自 顶 向 下 解析 


假设 我 们 有 图 Fig 2.7 中 语言 a"b "em 的 单调 语法 ， 这 里 重新 提 一 下 : 


S, — aSQ 
S — abc 
bQc — bbcc 
cQ — Qc 


并 且 假 设 (输入 的 ) 句子 是 aabbcc。 首 先 我 们 尝试 一 些 自 顶 向 下 解析 方 
式 。 我 们 知道 生成 树 必须 从 起 始 符号 开始 : 


©) i 


那 现在 第 二 步 是 什么 ? 对 于 S 我 们 有 两 个 规则 : S--->a SQF S--->abc » € 
二 个 规则 要 求 句 子 是 从 ab 起 始 的 ， 但 这 里 不 是 的 。 这 样 就 只 剩 S--->aSQ : 


这 为 我 们 带 来 一 个 很 好 的 解释 ， 为 句子 中 的 第 一 个 a。 现 在 又 有 两 个 规 

则 : S--->aSQ 和 S--->abc。 一 些 反 射 将 会 揭示 在 这 里 第 一 个 规则 会 是 一 个 
坏 的 选择 : S 的 所 有 生成 规则 都 起 始 于 a， 并 且 如 果 我 们 能 推进 到 阶段 
aaSQQ ,， 下 一 步 就 不 可 避免 的 导致 aaa...， 这 与 输入 相 矛 盾 。 然 而 第 二 个 
规则 ， 也 不 是 没有 问题 的 : 


现在 句子 起 始 于 aabc...， 这 也 与 输入 相 了 矛盾 。 然 而 ， 有 另 一 条 出 路 : cQ--- 
>Qc : 





现在 就 只 有 一 条 规则 适用 了 : bQc--->bbcc， 这 样 就 获得 了 我 们 输入 的 名 
T (与 解析 树 一 起 ) : 





自 顶 向 下 解析 用 前 缀 顺 寻 标识 了 生成 规则 (并 因此 特征 化 了 解析 树 ) 。 


3.2.2 自 底 向 上 解析 


使 用 自 底 向 上 技术 > 我 们 如 下 进行 o 一 个 生成 步骤 必须 在 最 后 ， 并 且 其 结 
果 在 字符 囊 中 必须 是 可 见 的 。 我 们 在 aabbcc 中 识别 出 bQc--->bbcc 的 右 
侧 。 这 给 了 我 们 生成 的 最 后 一 步 (也 是 减少 的 第 一 步 ) 


| 


现在 我 们 识别 出 由 cQ--->Qc 派 生 的 Qc : 





以 及 我 们 减少 的 最 后 一 步 也 让 我 们 没有 选择 : 





自 底 向 上 解析 倾向 于 找 出 前 组 顺序 中 的 生成 规则 。 





有 趣 的 是 ， 自 底 向 上 解析 把 解析 过 程 ; ME 程 。 上 述 慢 慢 减少 


的 过 程 可 以 被 视 为 用 反 向 语法 的 生成 过 


asQ 
abc 
bbcc 
Qc 


S 
S 
b 


Vive 


Qc 
cQ 
增加 一 条 规则 ， 将 起 始 符号 变 成 一 个 新 的 终结 符 : 
S--->! 

以 及 增加 一 条 引入 新 起 始 符号 的 规则 ， 原 句 是 : 


ls ---> aabbcc 


如 果 ， 从 | 起 始 ， 我 们 能 生成 我 们 已 经 在 输入 字符 囊 中 识 匈 
们 记录 了 我 们 做 过 的 事情 ， 那 我 们 也 就 获得 了 解析 树 。 


| 的 1， 并 且 如 果 我 


生成 和 减少 的 双重 性 被 Deussen[21] 使 用 ， 作 为 正式 语言 的 一 个 非常 根本 的 


M4 
途径 。 


3.2.3 适用 性 


上 述 例子 表明 ， 自 顶 向 下 和 自 底 向 上 两 种 方法 都 在 某 些 情 况 下 能 起 作用 ， 
但 同时 ， 也 会 涉及 到 一 些 很 微妙 的 需要 注意 的 事情 ， 这 些 是 我 们 无 法 教 给 
一 台 计 算 机 的 。 解 析 文 学 的 几乎 整个 主体 都 与 正式 确定 这 些微 妙 的 注意 事 
项 相关 ， 并 且 取 得 了 相当 大 的 成 功 。 


3.3 非 确定 型 目 动机 


RON 替换 和 记录 解析 树 的 
机 器 ， 以 及 一 个 决定 机 器 该 做 那些 动作 的 控制 机 器 。 这 个 机 器 相对 简单 ， 
因为 其 替换 仅 允 许 语 法 所 允许 的 那些 ， ihe o dA 的 ， 
并 且 可 能 包含 语法 的 广泛 的 知识 。 


这 种 结构 可 以 在 所 有 解析 方法 中 看 出 : 总 是 有 一 个 替换 和 保持 记录 的 机 
， 以 及 一 个 指导 性 的 控制 机 器 


En: 















substituting and 
record-keeping 
mechanism 


control 
mechanism 





替换 的 机 器 被 称 为 非 确定 型 自动 机 或 NDA ; 被 称 为 “ 非 确 定型 "是 因为 经 常 
有 几 个 可 能 的 行动 ， 并 且 特 殊 选 择 没 有 预先 决定 ， 而 “自动 "是 因为 会 自动 执 
行 应 激 的 操作 。 它 管理 三 个 组 件 : 输入 字符 串 (实际 上 是 它 的 副本 ) ， 部 
Lee MER Mc S d 





串 的 一 些 信息 到 部 分 解析 树 中， 通过 管理 工作 。 三 个 组 件 可 能 在 过 程 中 进 
行 修改 : 
partial 
parse control input 
tree(s) 
internal 
administration 











NDA 的 强大 力量 ， 以 及 它 实用 性 的 主要 来 源 ， 就 是 它 可 以 被 轻松 的 构建 ， 
以 便 它 能 只 做 “正确 "的 行为 ， 也 就 是 说 ， 保 持 系 统 部 分 处 理 输 入 ， 内 部 控制 
和 部 分 解析 树 一 致 的 行为 。 这 有 可 能 导致 我 们 按照 选择 的 任何 方式 移动 
NDA 的 结局 : 它 可 能 在 圈 中 运动 ， 其 至 它 可 能 困 住 ， 但 是 如 果 它 能 给 我 们 
一 个 答案 ， 以 一 个 完成 的 解析 树 的 形式 ， 那 这 个 答案 就 将 是 正确 的 。NDA 
可 以 做 所 有 正确 的 行为 也 是 有 必要 的 ， 以 便 它 能 生成 所 有 解析 ， 如 果 控 制 
机 制 足够 聪明 能 指导 NDA。NDA 的 这 个 属性 也 很 容易 安排 。 


NDA 固 有 的 正确 性 给 控制 机 制 带 来 了 极 大 的 自由 ， 简 称 " 控 制 "。 它 可 能 是 
幼稚 的 又 或 成 熟 的 ， 它 可 能 是 麻烦 的 又 或 是 有 效 的 ， 它 其 至 可 能 是 错 的 ， 
但 它 绝 不 可 能 会 使 NDA 生 成 一 个 不 正确 的 解析 ; 而 这 是 一 个 令 人 欣慰 的 想 
法 。 然 而 ， 如 果 它 是 错误 的 ， 那 可 能 会 是 NDA 错 失 一 个 正确 的 鸡西 ， 导 致 
无 限 循 环 ， 或 在 不 应 该 的 地 方 被 卡 住 。 


3.3.1 构建 NDA 


NDA 直 接 源 于 语法 。 对 于 一 个 自 顶 向 下 解析 ， 它 主要 由 语法 的 生成 规则 组 
成 以 及 内 部 控制 是 最 初 的 起 始 符号 。 该 控制 机 制 移 动机 器 直到 内 部 管理 与 
输入 字符 串 相等 ; 接 下 来 解析 就 被 找到 了 “。 对 一 个 自 底 向 上 的 解析 器 ， 运 
动 主要 由 语法 的 生成 规则 的 反 向 组 成 ( 见 3.2.2 节 ) ， 并 且 内 部 管理 最 初 是 
输入 字符 串 。 该 控制 机 制 移动 机 器 直到 内 部 管理 与 其 实 符号 相等 ; 接 下 来 
解析 就 被 找到 了 。 一 个 左 角 解析 器 像 一 个 自 顶 向 下 解析 器 一 样 工 作 ， 其 中 
一 套 精 心 选择 的 生成 规则 集合 被 反 转 ， 并 且 其 中 有 特殊 的 行为 来 撤销 这 个 
反 转 当 需 要 的 时 候 。 


3.3.2 构建 控制 机 制 


构建 一 个 解析 器 的 控制 机 制 是 一 件 相 当 不 同 的 事情 。 一 些 控制 机 制 是 独立 
于 语法 的 ， 一 些 定期 从 语法 中 查询 ， 一 些 使 用 语法 预计 算 的 巨大 的 表格 ， 

TR S dU 。 我 们 应 该 看 到 这 些 的 单独 的 例 
F: 这 部 分 开头 就 表明 的 “手动 控制 "， 属 于 “定期 从 语法 中 查询 ”的 类 别 ， 回 
漳 解 析 器 通常 使 用 语法 独立 控制 ，LL 和 LR 解析 器 使 用 语法 派生 的 预计 算 的 
表格 ，CYK 解 析 器 使 用 输入 字符 串 派生 的 表格 ， 以 及 Early 和 GLR 解 析 器 使 
用 少数 的 几 个 由 语法 和 输入 字符 串 派生 的 表格 。 


Mi KP AN EE UU ， 包 括 表 ， 几 乎 都 是 由 程序 完成 的 。 这 种 程序 被 称 


为 解析 器 生成 器 ; 这 足够 了 ， 语 法 和 也 许 是 终结 符号 的 描述 ， eee 
个 程序 就 是 解析 器 。 解 析 器 通常 由 一 个 驱动 和 一 个 或 多 个 表 组 成 ， 这 种 情 


况 下 被 称 为 表 驱 动 。 ee a 


由 输入 字符 串 派 生 的 表 必 须 被 解析 器 的 一 个 例 行 程序 计算 。 应 该 指出 的 
是 ， 这 反映 了 典型 配置 ， 大 量 不 同 的 输入 字符 串 被 根据 同一 个 相对 静止 不 
变 的 语法 解析 。 反 面 例子 是 很 容易 想象 的 : 许多 语法 被 用 来 试图 解释 一 个 
给 定 的 输入 字符 串 ， 例 如 事件 的 一 个 观测 序列 。 


3.4 0 型 到 4 型 语法 的 识别 和 解析 


根据 一 个 语法 解析 甸子， 原则 上 我 们 事先 就 知道 这 个 字符 串 实际 上 源 于 这 
个 语法 。 如 果 我 们 不 能 想到 更 好 的 东西 ， 我 们 可 以 对 语法 按照 2.4.1 节 的 一 
般 生成 过 程 来 运行 ， 然 后 就 坐等 这 个 句子 出 现 (我 们 知道 一 定 会 出 现 ) © 
这 情况 本 身 还 不 足够 : 我 们 必须 在 扩展 一 下 生成 过 程 ， 以 便 每 个 句子 形式 
都 能 携带 其 本 身 一 部 分 的 生产 树 ， 即 便 需 要 在 必要 的 时 刻 进行 更 新 ， 但 很 
明显 可 以 通过 一 点 编程 工作 来 完成 。 我 们 可 能 需要 等 待 一 会 儿 ( 几 百 万 年 
也 说 不 好 ) 直到 句子 显示 出 来 ， 不 过 最 后 我 们 肯定 可 以 收获 到 解析 树 。 当 
然 这 是 完全 不 切实 际 的 ， 但 它 至 少 展 示 了 再 理论 上 ， 任 何 字符 串 都 能 被 解 
析 ， 如 果 我 们 知道 它 是 可 解析 的 ， 不 管 是 什么 语法 类 型 。 


3.4.1 时 间 要 求 


当 解 析 一 个 包含 几 个 符号 的 字符 串 时 ， 对 于 解析 器 的 时 间 要 求 有 些 想法 是 
很 重要 的 ， 即 解析 输入 字符 串 的 一 些 符号 的 依赖 项 所 需要 的 时 间 。 预 期 的 
输入 长 度 范围 从 上 千 万 (自然 语言 种 的 句子 ) 到 数 万 (大 型 计算 机 程序 ) 
ZA ; 一 些 输入 字符 串 的 长 度 甚至 可 能 是 几乎 无 限 长 的 〈 一 台 咖 啡 售 货 机 
再 其 使 用 寿命 之 间 的 按钮 按 动 序列 ) 。 输 入 长 度 的 依赖 项 的 时 间 要 求 也 称 
为 时 间 复 杂 度 。 


有 几 个 特征 属性 让 时 间 依 赖 项 能 被 识别 。 一 个 时 间 依 赖 项 是 指数 分 布 的 ， 
如 果 接 下 来 的 每 一 个 输入 符号 所 需 的 时 间 都 乘 以 一 个 常量 因子 ， 也 就 是 : 
每 一 个 额外 的 输入 符号 需要 双 倍 的 解析 时 间 。 指 数 分 布 的 时 间 依 赖 项 被 写 
作 O(C 由)， 其 中 C 是 增加 的 常量 因子 。 指 数 依 赖 关 系 ， 来 自 于 著名 的 棋盘 
上 每 一 个 各 自 上 的 谷物 数量 都 是 前 一 个 格子 的 两 倍 这 个 故事 ; 这 种 方式 意 
味 着 破产 。 


一 个 时 间 依 赖 项 是 线性 分 布 的 ， 如 果 接 下 来 的 每 一 个 输入 符号 需要 花费 的 
处 理 时 间 有 一 个 固定 的 增 量 ; 输入 长 度 增 加 一 倍 则 处 理 时 间 增 加 一 倍 。 这 
种 行为 是 我 们 希望 在 解析 器 中 看 到 的 ; 解析 所 需要 的 时 间 与 读 取 输 入 所 需 
的 时 间 成 正比 。 所 谓 的 实时 解析 器 表现 的 其 至 更 好 : 它们 可 以 在 读 取 完成 
最 后 一 个 符号 的 恒定 的 时 间 内 生成 解析 树 ; 如 果 计 算 机 运行 足够 快速 ， 它 
们 能 跟 上 以 恒定 速率 输入 的 无 限 输入 流 。 请 注意 ， 这 不 一 定 是 丨 正 的 线性 
时 间 解 析 器 ; 原则 上 它们 可 以 读 取 有 n 个 符号 的 完整 字符 囊 ， 然 后 花费 与 n 
成 正比 的 时 间 来 生成 解析 树 。 


线性 时 间 依赖 被 写作 O(n)。 一 个 时 间 依赖 项 被 称 为 二 次 曲线 式 的 ， 如 果 处 
理 时 间 与 输入 长 度 的 平方 成 正比 (写作 O(n2)) ， 以 及 立方 式 的 如 果 与 长 度 
的 三 次 方 成 正比 (写作 O(n3)) 。 总 之 ， 一 个 依赖 项 与 n 的 任意 次 里 成 正比 
则 被 称 为 多 项 式 (写作 O(nP)) 。 


3.4.1 时 间 要 求 
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3.4.2 0 型 和 1 型 语法 


一 个 任意 的 0 型 语法 的 识别 问题 是 不 可 解 的 ， 这 在 形式 语言 学 上 是 一 个 显著 
的 成 果 。 这 意味 着 不 会 有 一 种 莫 法 ， 它 接受 一 个 任意 的 0 型 语法 以 及 一 个 任 
意 的 字符 串 ， 然 后 在 有 限 的 时 间 内 告诉 我 们 这 个 语法 是 否 能 能 生成 这 个 字 

符 事 。 可 以 证 明 这 种 说 法 ， 但 是 证 明 过 程 非常 令 人 生 展 ， 并 且 它 不 能 提供 
oe BARB iE X URP LS 89 RES] o Ke — i eq TEA: 我 们 能 证 明 ， 
如 果 存 在 这 样 一 种 算法 ， 我 们 就 能 构造 第 二 个 算法 ， 其 能 证 明 语 法 只 能 在 
永远 不 终止 的 情况 下 才能 终止 。 由 于 这 在 逻辑 上 是 不 成 立 的 ， 并 且 由 于 其 
余 所 有 的 前 提 在 证 明 过 程 中 都 表明 我 们 不 得 不 得 出 一 个 结论 就 是 ， 在 我 们 
最 初 的 前 提 下 ，0 型 语法 的 识别 器 在 逻辑 上 是 不 可 能 的 。 令 人 信服 ， 但 精神 
上 却 难以 接受 。 完 整 的 证 明 见 Hopcroft and Ullman [391, pp. 182-183], or 
Révész [394, p. 98] ° 


为 一 定数 量 的 0 型 语法 构建 一 个 识别 器 却 是 很 有 可 能 的 ， 通 过 使 用 某 种 特定 
。 然 而 这 种 技术 却 不 能 对 所 有 0 型 语法 起 效 。 事 实 上 ， 不 论 我 们 收集 

多 少 种 技术 ， 总 会 有 这 些 技术 不 起 作用 的 语法 存在 。 在 某 种 意义 上 ， 我 
VER A LEA DERE EA - 


对 于 1 型 语法 ， 这 种 情况 却 是 完全 不 同 的 。1 型 语法 的 生成 规则 不 能 使 甸子 
形式 收敛 这 个 看 似 无 关 紧 要 的 属性 ， 让 我 们 可 以 为 自 底 向 上 的 NDA 构 建 一 
个 至 少 原则 上 能 起 作用 的 控制 机 制 ， 而 不 考虑 语法 。 这 个 控件 的 内 部 管理 
包含 一 组 可 能 在 输入 的 句子 中 发 挥 作用 的 句子 形式 ; 它 开始 只 包含 输入 的 
句子 。NDA 的 每 一 次 移动 都 是 一 次 还 原 ， 根 据 语法 。 现 在 这 个 控制 将 NDA 
的 所 有 可 能 的 移动 都 应 用 在 内 部 管理 的 所 有 句子 形式 中 ， 以 任意 顺序 的 方 
式 ， 并 将 每 一 个 结果 添加 至 内 部 管理 中 ， 如 果 不 是 已 经 存在 的 话 。 这 个 动 
作 会 一 直 持 续 到 所 有 的 句子 都 完成 了 所 有 可 能 的 移动 并 得 到 了 结果 。 由 于 
没有 哪个 NDA 移 动 可 以 使 句子 形式 变 长 (因为 所 有 的 右 侧 至 少 是 与 其 左 侧 
ba ， 并 且 由 于 句子 形式 的 数量 有 限 ， 与 输入 字符 串 长 短 相 当 ， 
这 最 终 都 是 会 发 生 的 。 现 在 我 们 在 内 部 管理 的 句子 形式 中 找到 仅 只 包含 起 
始 符号 的 那 一 个 。 如 果 它 确实 存在 ， 那 我 们 就 识别 出 了 输入 字符 串 ; m 
不 存在 ， 那 输入 字符 串 就 不 属于 这 个 语法 所 代表 的 语言 。 如 果 我 们 还 


得 ， 在 一 些 额 外 的 管理 机 制 中 ， 我 们 是 如 何 得 到 这 个 起 始 符号 的 句子 形 
式 ， 我 们 就 已 经 得 到 了 解析 过 程 。 而 所 有 的 这 些 都 依赖 于 大 量 的 书记 工 
作 ， 而 我 们 并 不 打算 讨论 这 个 ， 因 为 反正 也 没有 人 这 么 做 。 


综 上 所 述 ， 我 们 并 不 能 总 是 为 0 型 语法 构建 解析 器 ， 但 如 果 是 1 型 语法 那 我 
们 就 能 做 到 。 为 这 种 类 型 的 语法 构建 一 个 实用 、 合 理 高 效 的 解析 器 ， 是 一 
个 非常 困难 的 问题 ， 但 是 在 过 去 的 40 年 中 一 直 保持 缓慢 但 稳定 的 进展 ( 见 
18.1.1 节 (UPR) ) 。 这 不 是 一 个 热 搜 话题 ， 主 要 是 因为 0 型 和 1 型 语法 
是 出 了 名 的 不 友好 并 且 永 远 不 会 被 广泛 应 用 的 。 然 而 并 不 是 完全 没有 用 

处 ， 因 为 一 个 好 的 0 型 语法 解析 器 可 能 会 让 定理 证 明 器 | 有 一 个 好 的 开端 。 


对 人 类 不 友好 的 思虑 并 不 适用 于 两 级 语法 。 有 一 个 实用 的 两 级 语法 解析 器 
将 棒 极 了 ， 因 为 这 将 会 让 解析 技术 (以 及 其 所 有 的 内 置 自动 化 技术 ) 应 用 
到 更 广泛 领域 中 相 比 于 现在 ， 尤 其 是 上 下 文 条 件 很 重要 的 情况 。 两 级 语法 
解析 情况 的 目前 的 可 能 性 在 15.2.3 节 中 讲述 。 


所 有 已 知 的 0 型 、1 型 以 及 无 限制 的 两 级 语法 的 的 解析 算法 ， 都 有 指数 级 分 
布 的 时 间 依 赖 项 。 
1 一 个 理论 证 明 程 序 就 是 ， 给 定 一 组 定理 或 公理 ， 在 没有 或 极 少 认为 
干预 的 情况 下 来 证 明 或 反 证 这 个 理论 的 程序 。 虽 


3.4.3 2 型 语法 


幸运 的 是 ，CF (2 型 ) 语法 的 解析 算法 相 比 于 0 型 和 1 型 要 著名 的 多 。 使 用 
CF 和 FS 语法 中 几乎 所 有 实用 的 解析 都 做 过 了 ， 并 且 在 上 下 午 无 关 语法 的 解 
析 中 几乎 所 有 遇 到 的 问题 都 被 解决 了 。 这 么 大 差距 的 原因 可 以 在 CF 语法 生 
成 过 程 中 找到 : 句子 形式 中 的 一 个 非 终结 符 的 演变 是 完全 独立 于 其 余 非 终 
结 符 的 演变 的 ， 并 且 相 反 的 是 ， 在 解析 过 程 中 ， 我 们 可 以 结合 部 分 解析 树 
而 不 理会 它们 的 历史 。 在 上 下 午 相关 语法 中 这 些 都 不 是 正确 的 。 


自 顶 向 下 和 自 底 向 上 解析 过 程 都 很 容易 适用 于 CF 语 法 。 在 下 面 的 例子 中 ， 
我 们 应 使 用 简单 的 语法 


Sentences — Subject Verb Object 

Subject 一 the Noun | a Noun | ProperName 
Object 一 the Noun | a Noun | ProperName 
Verb — bit | chased 

Noun — cat | dog 

ProperName 一 .- 


3.4.3.1 自 顶 向 下 CF 语法 解析 


在 自 顶 向 下 CF 语法 解析 中 ， 我 们 从 起 始 符号 入 手 ， 并 尝试 产生 输出 。 这 里 
的 关键 词 是 预测 和 匹配 。 句 子 形式 中 任何 时 候 都 有 一 个 最 左 侧 非 终结 符 A， 
而 解析 器 系统 的 尝试 预测 一 个 A 的 恰当 的 替代 品 ， 在 这 个 位 置 的 输入 中 一 旦 
有 兼容 的 符号 被 发 现 ， 那 A 的 产物 就 应 该 开始 了 。 这 个 最 左 侧 的 非 终结 符 也 
被 称 为 预测 过 程 的 目标 。 


想 想 图 Fig 3.5 中 的 例子 ， 其 中 Object 就 是 最 左 侧 的 非 终 结 符 ， 也 就 是 “ 目 

As" o 在 这 种 情况 下 ， 解 析 器 将 首先 预测 Object 的 the Noun， 然 后 会 立即 
推翻 这 个 替换 项 ， 因 为 the 的 位 置 被 要 求 是 一 个 a。 接 下 来 ， 解 析 器 将 会 党 
试 a Noun， 这 个 将 会 被 暂时 接受 。a 匹 配 上 了 ， 新 的 最 左 侧 非 终结 符 就 成 
了 Noun。 当 Noun 最 终生 成 了 dog 时 ， 这 个 解析 器 就 成 功 了 。 解 析 器 将 会 


A Object Z iX FH = KAR! > ProperName ; 这 个 替换 项 不 会 被 立即 拒绝 ， 
为 解析 器 无 法 知道 ProperName 不 能 起 始 于 一 个 a。 它 将 在 稍 后 阶段 中 失 
败 。 


Input: the cat bit a dog 
Sentential form: the cat bit Object 
(the internal administration) 


Fig. 3.5. Top-down parsing as the imitation of the production process 


这 种 方法 有 两 个 严重 的 问题 。 虽 然 理论 上 ， 它 可 以 处 理 任意 的 CF 语 法 ， 但 
如 果 被 单纯 的 照章 办 事 的 执行 的 话 ， 可 能 会 在 一 些 语法 中 走 到 死 循 环 中 。 
这 个 可 以 通过 使 用 一 些 特 殊 技术 来 避免 掉 ， 这 在 大 多 数 自 顶 向 下 解析 器 中 
处 理 了 ; 这 个 将 在 第 6 章 中 详细 讲解 。 第 二 个 问题 是 算法 必须 符合 时 间 指 数 
分 布 ， 因 为 任何 一 次 预测 都 可 能 被 证 明 是 错误 的 ， 并 且 需 要 在 反复 试 错 中 
纠正 。 上 面 的 例子 显示 了 可 以 通过 预 处理 语 法 来 增加 一 些 效 率 : 其 优势 在 
于 可 以 预先 知道 哪些 记号 可 以 开启 ProperName， 以 避免 预测 注定 会 失败 
的 替代 项 。 这 对 于 语法 中 的 大 多 数 非 终结 符 来 说 是 正确 的 ， 而 且 这 种 信息 
可 以 很 容易 的 从 语法 中 计算 出 来 并 存储 在 一 个 表 中 供 解析 中 使 用 。 对 于 一 
个 合理 的 语法 集合 ， 可 以 实现 一 个 线性 时 间 依 赖 项 ， 比 如 第 8 草 将 会 解释 
的 。 


3.4.3.2 自 底 向 上 CF 语 法 解析 


在 自 底 向 上 的 CF 语法 解析 中 ， 我 们 从 输入 开始 ， 然 后 尽量 减少 它 与 起 始 符 
号 的 差距 。 这 里 的 关键 字 是 转移 和 缩减 。 当 我 们 在 过 程 中 时 ， 我 们 手中 有 

了 一 个 由 输入 缩减 而 来 的 句子 形式 。 在 这 个 句子 中 的 元 个 地 方 必 定 有 一 个 

段 〈 子 字符 串 ) ， 其 是 这 个 句子 形式 的 最 后 一 步 生 成 步骤 的 结果 。 这 一 段 

对 应 于 生成 规则 A->q 的 右 侧 qa， 而 且 必须 被 缩减 到 A。 段 和 生成 规则 一 起 被 
称 为 句子 形式 的 句 枉 ， 有 一 个 相当 拟 合 的 表达 式 ; 见 图 Fig 3.6。 (SAR 

规则 在 段 的 发 现 中 是 显而易见 的 ， 那 匹配 的 段 通常 单独 被 称 为 “句柄 ”。 通 常 
我 们 会 遵守 这 种 习惯 ， 不 过 我 们 认为 称 之 为 句柄 段 要 更 明确 一 些 。) 


Subject chased a dog 


production | ! reduction 


a Noun chased E dog 


Randle 


Fig. 3.6. Bottom-up parsing as the inversion of the production process 


诀窍 是 找到 句 枉 。 它 必须 是 一 个 规则 的 右 侧 ， 所 以 我 们 从 寻找 这 种 右 侧 开 
始 ， 通 过 将 句子 形式 中 的 符号 转换 到 内 部 管理 机 制 中 。 当 我 们 找到 这 样 一 
个 右 侧 ， 我 们 向 着 其 左 侧 对 其 进行 缩减 ， 然 后 重复 这 个 过 程 直 到 只 剩 下 起 
始 符号 。 用 这 种 方式 我 们 不 一 定 能 找到 正确 的 句柄 ; 如 果 我 们 犯错 ， 那 将 
会 在 接 下 来 的 步骤 中 卡 主 ， 然 后 将 不 得 不 撤销 一 些 步 又， 然后 转向 更 多 的 
符号 并 再 次 尝试 。 在 图 Fig 3.6 中 ， 我 们 本 可 以 让 a Noun 向 着 Object 缩减 ， 
但 最 后 大 胆 走 向 了 死胡同 。 


这 种 方式 有 两 个 本 质 上 相同 的 问题 ， 在 自 顶 向 下 技术 中 。 它 可 能 产生 循 
环 ， 并 且 在 有 8 规则 的 语法 中 也 可 能 会 这 样 : 它 将 在 所 有 的 地 方 持续 找到 空 
的 生成 。 这 个 可 以 通过 触及 语法 来 纠正 。 并 且 可 以 花费 服从 指数 分 布 的 时 
间 ， 因 为 句柄 的 正确 识别 必须 通过 试 错 来 完成 。 同 样 的 ， 对 语法 做 预 处 理 
往往 会 有 帮助 : 在 语法 中 很 明显 ，Subject 可 以 通过 追逐 来 找到 ， 

但 Object 却 不 能 。 所 以 如 果 下 一 个 符号 是 追逐 的 ， 那 将 一 个 匈 柄 缩减 至 
Object 是 无 意义 的 。 


3.4.4 3 型 语法 


在 正则 语法 中 ， 一 个 右 侧 包含 最 多 一 个 非 终结 符 ， 所 以 最 左边 和 最 右边 推 
到 没有 区 别 。 自 顶 向 下 方式 对 右 正 则 语法 来 说 有 效 的 多 ; 而 对 左 正则 语法 
来 说 ， 自 底 向 上 方式 要 好 的 多 。 当 我 们 采取 图 Fig 2.15 中 的 生成 树 ， 并 且 把 
它 逆 时 针 旋 转 45。， 我们 就 得 到 了 图 Fig 3.7 的 生成 链 。 非 终结 符 的 序列 向 右 
滚动 ， 当 它们 离开 的 时 候 就 生成 了 终结 符 。 在 解析 中 ， 给 我 们 的 是 终结 符 
而 希望 得 到 的 是 非 终结 符 序 列 。 第 一 个 起 始 符 号 是 给 出 的 〈 因 此 更 适用 自 
顶 向 下 ) 。 如 果 只 有 一 条 规则 以 输入 的 第 一 个 符号 开始 ， 那 我 们 就 是 幸运 
的 并 且 知 道 接 下 来 该 怎么 做 。 然 后 大 多 数 时候 ， 有 许多 规则 是 以 同一 个 符 
号 开始 的 ， 那 时 候 我 们 就 需要 更 多 的 智慧 了 。 至 于 2 型 语法 ， 我 们 当然 可 以 
通过 试 错 找到 正确 的 下 一 步 ， 但 存在 着 更 多 可 以 处 理 任何 正则 语法 的 更 有 
效 的 方式 。 由 于 他 们 中 的 一 些 是 以 更 先进 的 解析 技术 为 基础 的 ， 所 以 我 们 
将 在 第 5 章 中 一 一 介绍 。 
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Fig. 3.7. The production tree of Figure 2.15 as a production chain 


3.4.5 4 型 语法 


有 限 选择 语法 (FC) 不 包含 生成 树 ， 并 且 对 一 个 FC 语 法 语言 的 一 个 给 定 输 
入 字符 串 的 成 员 关系 可 以 由 简单 的 查找 来 决定 。 这 种 查找 方式 通常 不 认为 

是 “解析 "， 但 仍然 在 这 里 提 及 有 两 个 原因 。 第 一 ， 它 可 以 受益 于 解析 技术 ， 
第 二 ， 在 解析 环境 中 通常 需要 它 。 自 然 语 言 中 有 一 些 单词 类 别 ， 只 包含 数 

量 非 2 例如 代词 、 介 词 和 连词 。 通 常 快 速 的 决定 一 个 给 定单 

词 是 否 属 于 这 些 有 限 选择 类 别 之 一 或 者 是 需要 在 进一步 的 分 析 是 至 关 重 要 

的 。 用 于 编程 语言 中 的 保留 字段 。 


一 种 方法 是 将 FC 语 言 作为 正则 语法 来 考虑 ， 并 应 用 第 5 章 的 技术 。 
是 及 其 有 效 的 。 

另 一 个 经 常 使 用 的 方法 是 使 用 一 个 哈 希 表 。 见 任何 一 本 关于 算法 的 书 ， 例 
如 Cormen et al. [415], 或 者 Goodrich and Tamassia [416] ° 


3.5 上 下 文 无 关 解 析 方法 的 概述 


在 Chomsky 语 法 类 型 中 ， 上 下 文 无 关 (22) 语法 占据 着 最 突出 的 位 置 。 
这 有 三 个 原因 : 1.CF 解 析 的 结果 在 生成 树 上 ， 这 让 语义 的 表达 和 结合 更 容 
A ; 2.CF 语 言 履 盖 了 很 大 一 部 分 人 们 想 要 自动 处 理 的 语言 ; 3. 有 效 的 CF 解 
析 是 有 可 能 的 ---- 虽 然 有 时 候 存在 很 大 的 困难 。 在 重要 性 上 上 下 文 无 关 语法 
后 紧 跟 着 有 限 状态 语法 。 这 是 因为 世界 和 设备 是 有 限 的 ; 自动 售 货 机 、 远 
程控 制 、 病 毒 探 测 器 ， 所 有 这 些 都 展示 了 有 限 状 态 的 本 性 。 本 书 的 其 余 章 
节 ， 因 此 将 主要 关注 CF 解析 ， 除 了 第 5 章 (有 限 状态 语法 ) 之 外 ， 以 及 第 
15% ( 非 Chomsky 体 系 )。 我 们 现在 先 看 一 下 上 下 文 无 关 解 析 方 法 的 概 


关于 解析 文学 的 读者 面临 着 大 量 相互 之 间 关 系 往往 不 明确 的 技术 。 然 而 现 
在 所 有 的 技术 都 可 以 被 放 在 一 个 单一 的 框架 中 ， 根 据 一 些 简 单 的 标准 : 见 
图 Fig 3.11。 


我 们 已 经 看 到 ， 一 个 解析 技术 要 么 是 自 顶 向 下 ， 从 起 始 符号 开始 重新 生成 
输入 字符 囊 ， 要 么 是 自 底 向 上 ， 向 着 起 始 符号 缩减 输入 字符 囊 。 下 一 个 分 
歧 点 是 在 定向 和 非 定向 解析 方法 之 间 。 


3.5.1 方向 性 


非 定 向 性 方法 构建 解析 树 ， 当 以 任何 他 们 认为 合适 的 顺序 访问 输入 字符 串 
时 。 当 然 这 要 求 在 解析 之 前 ， 完 整 的 输入 字符 串 要 存在 内 存 之 中 。 分 别 有 
自 顶 向 下 和 自 底 向 上 两 个 版 本 。 定 向 解析 器 会 按照 顺序 一 个 接 一 个 的 访问 
输入 字符 串 ， 持 续 访 问 直到 更 新 完 部 分 解析 树 。 也 有 自 顶 向 下 和 自 底 向 上 
两 个 版 本 。 


3.5.1.1 非 定 向 方法 


非 定 向 性 的 自 顶 向 下 方法 即 简单 又 直接 ， 可 能 已 经 被 很 多 人 独立 发 明 出 来 
了 。 据 我 们 所 知 最 早 是 Unger[12] 在 1968 年 提出 的 ， 但 是 在 他 的 文章 中 的 描 
述 似乎 这 个 方法 当时 已 经 存在 了 。 这 个 方法 在 文献 中 一 直 不 受 重视 ， 但 却 
比 人 们 所 认为 的 要 重要 的 多 ， 因 为 它 以 不 知名 的 方式 被 大 量 的 解析 器 使 
用 。 我 们 应 该 称 之 为 Unger 方 法 ; 见 4.1 节 。 


非 定 向 性 的 自 底 向 上 方法 也 被 很 多 人 独立 发 现 ， 其 中 有 Cocke (in Hays [3， 
Sect. 17.3.1]), Younger [10], 和 Kasami [13] : 更 早 是 Sakai [5] 提 出 的 。 它 是 
以 三 个 最 著名 的 发 明 家 合 称 命名 的 CYK (或 者 说 又 是 称 为 CYK) 。 它 受到 
广泛 的 注意 ， 因 为 其 天 生 的 执行 性 要 比 Unger 方 法 更 有 效率 。 不 过 这 两 种 
方法 的 效率 都 还 可 以 提升 ， 达 到 大 致 相同 的 效果 ; 见 Sheil [20] 。CYK 方 法 
将 在 4.2 节 中 讲述 。 


— 性 方法 通常 首先 构建 一 个 数据 结构 ， 总 结 输 入 句子 的 语法 结构 。 在 
二 阶段 的 时 候 ， 解 析 树 就 可 以 从 这 种 数据 结构 中 产生 。 
3.5.1.2 定向 方法 


定向 方法 一 个 符号 一 个 符号 的 处 理 输 入 字符 串 ， 从 左 到 右 。 (从 右 到 左 解 
析 也 是 可 能 的 ， 通 过 使 用 语法 的 镜像 ; E a 
是 ， 解 析 可 以 启动 并 且 确 实 进行 ， 在 输入 字符 串 的 最 后 一 个 字符 出 现 之 


-> 


前 。 定 向 方法 全 部 都 显示 或 隐 式 的 基于 解析 自动 机 上 ， 在 3.4.3 节 中 描述 
的 ， 其 中 自 顶 向 下 方法 执行 预测 和 匹配 ， 自 底 向 上 方法 执行 转换 和 缩减 。 
定向 方法 通常 可 以 构建 (部 分 ) 解析 树 ， 当 它 在 处 理 输入 字符 串 时 ， 除 非 
语法 不 明确 或 者 需要 一 些 后 续 处 理 。 


3.5.2 搜索 技术 


第 三 种 分 类 解析 技术 的 在 指导 解析 自动 机 通过 其 所 有 可 能 性 找 
到 一 个 或 所 有 解析 结果 的 搜索 过 程 。 


总 的 来 说 有 两 个 方法 来 解决 问题 ， 其 中 有 几 个 备 选 方案 其 核心 都 是 : 深度 
优先 搜索 和 广度 优先 搜索 。 


。 在 深度 优先 搜索 中 ， 我 们 的 注意 力 集中 在 一 个 解决 一 半 的 问题 上 。 如 
果 在 一 个 给 定点 P 上 出 现 分 又 这 样 的 问题 ， 我 们 先 将 其 中 一 条 放 在 一 边 
等 待 稍 后 处 理 并 继续 处 理 另 一 条 。 如 果 这 条 路 最 后 失败 了 (或 者 即便 
是 成 功 了 ， 但 是 我 们 想 要 的 是 全 部 的 结果 ) ， 我 们 就 回 到 点 PP 在 继续 处 
理 刚 才 被 放 在 一 边 的 那 条 。 这 就 是 所 谓 的 回溯 。 


e 在 广度 优先 搜索 中 ， 我 们 保留 了 一 套 解 决 一 半 问题 的 集合 。 从 这 个 集 
合 中 我 们 计算 出 一 个 新 的 (更 好 的 ) 解决 一 般 问 题 的 集合 ， 通 过 检查 
pg bu QM LLL ; 对 每 一 个 选项 ， 我 们 在 新 集合 中 创建 
一 个 副本 。 实 际 上 ， 这 个 集合 最 终 会 包含 所 有 的 解决 方案 。 


深度 优先 搜索 的 优点 是 它 需 要 与 已 存在 的 问题 数量 成 正比 的 内 存 空间 ， 
不 像 广度 优先 搜索 ， 它 需要 的 内 存 是 程 指数 增长 的 。 广 度 oo 
是 它 将 首先 找到 最 简单 的 方案 。 这 两 种 方法 都 需要 在 原则 上 服从 指数 分 布 
的 时 间 。 如 果 我 们 想 要 更 有 效 的 (并 且 不 接受 指数 分 布 要 求 ) ， 我 们 需要 
一 些 手段 来 限制 搜索 。 搜 索 技术 的 更 多 信息 ， 可 以 在 任意 一 本 关于 算法 的 
书 上 找到 ， 例 如 Sedgewick [417] or Goodrich and Tamassia [416] ° 


de DU 而 是 可 以 在 广泛 的 范围 内 使 用 。 一 种 
传统 的 用 法 是 找到 迷宫 的 出 口 。 图 Fig 3.8 (a) 是 一 个 简单 的 有 一 个 入 口 和 
两 个 出 口 的 迷宫 ，Fig 3.8 (b) 描绘 了 深度 优先 搜索 将 会 采取 的 路 径 ; 这 对 
行走 其 中 的 人 类 来 说 是 唯一 的 选 : 他 不 | 他 自己 获取 迷宫 。 死 胡同 让 
深度 优先 搜索 回溯 到 最 近 的 一 条 没有 尝试 过 的 选择 。 如 果 搜 索 者 也 回溯 每 
2 


个 阶段 已 经 检查 过 的 空间 。 死 胡同 (阶段 3) 将 导致 搜索 分 之 被 丢弃 。 广 度 
优先 搜索 将 会 找到 最 快 的 捷径 (最短 解 决 方案 ) 。 如 果 它 持续 下 去 直到 没 
有 分 支 科 下 ， 那 也 将 找到 全 部 的 出 口 〈《 所 有 解决 方案 ) 。 
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Fig. 3.8. A simple maze with depth-first and breadth-first visits 


3.5.3 一 般 定 向 方法 


解析 就 是 重建 生成 过 程 这 个 观点 ， 当 使 用 定向 方法 时 就 尤为 明显 。 它 概述 


在 以 下 两 点 中 : 


e 一 个 定向 的 自 顶 向 下 (MEEA) 的 CF 解析 
侧 的 产物 。 


并 且 
e 一 个 定向 的 自 底 向 上 (从 左 到 右 ) 的 CF 解析 
最 右 侧 的 产物 。 


我 们 用 一 个 非常 简单 的 语法 来 证 明 这 个 : 


u 
“a 


Ji U 
E, 


H 0 U "Ug 


这 个 语法 只 生成 唯一 的 字符 串 ，pqr 。 


par 最 堪 侧 的 产物 的 生成 过 程 如 下 : 


WN 


其 中 | 标识 生成 过 程 进行 到 哪儿 了 。 自 顶 向 下 过 程 


Jo ee 


器 ， 标 识 生成 过 程 中 最 左 


器 ， 标 识 反 向 生成 过 程 中 


通过 首先 确定 生成 p 的 规 


则 来 模仿 这 一 过 程 ，P--->p ， 接 下 来 是 q ， 等 等 : 


S—>POR P+p Q->d 
|s — |PQR => pooR => pqdlR 
(1) (2) (3) 


par 的 最 右 侧 的 生成 过 程 如 下 : 


s| 

P Q RI 
P Q| r 
Plar 
lpqr 


WN 


同样 | 标识 生成 过 程 进 行 到 哪 几 了 。 自 底 向 上 分 析 回 滚 了 这 一 过 程 。 要 做 到 

这 一 点 ， 必 须要 先 确 定 步骤 4 的 规则 ，P--->p， 并 将 它 作 为 还 原 ， 然 后 是 第 

3 步 ，Q--->q， 等 等 。 幸 运 的 是 解析 器 可 以 很 容易 做 到 这 点 ， 因 为 最 右 侧 的 

生成 产物 成 为 了 已 生成 和 未 生成 的 句子 部 分 的 分 界 ， 所 以 最 后 的 产物 是 结 

果 的 最 左 侧 ， 正 如 我 们 前 边 看 到 的 。 然 后 解析 过 程 就 可 以 从 那儿 开始 了 : 
Pp Q-q Rr S-pqr 


[par = Plar => Pol = parl = sl 
(4) (3) (2) (4) 


这 种 双重 逆转 是 定向 自 底 向 上 解析 所 固有 的 。 


解析 树 的 构建 和 句子 形式 的 关联 如 图 Fig 3.9 所 示 ， 其 中 虚线 表示 句子 形 

式 。 左 侧 我 们 有 一 个 完整 的 解析 树 ; 对 应 的 句子 形式 就 是 终结 符 的 字符 

囊 。 中 间 的 图 展示 了 在 一 个 自 顶 向 下 解析 器 中 的 部 分 解析 树 ， 在 p 生成 之 
后 。 对 应 这 种 情况 的 句子 形式 就 是 pQR 。 它 起 因 于 两 种 生成 过 程 S 

PQR!  pQR， 这 产生 了 解析 树 。 右 图 表示 了 在 自 底 向 上 解析 器 中 p 被 生 
成 后 的 部 分 解析 树 。 对 应 的 句子 形式 是 Pqr > h par Pqr 产 生 ; 唯 一 
的 还 原 结果 导致 了 只 有 一 个 节点 的 解析 树 。 


A (s) 

(ps S. P (^p 
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a b C 


Fig. 3.9. Sentential forms in full parse tree (a), during top-down (5), and during bottom-up 
(c) 


将 广度 优先 或 深度 优先 与 自 顶 向 下 或 自 底 向 上 结合 起 来 ， 就 得 到 了 四 种 级 
别 的 解析 技术 。 自 顶 向 下 技术 将 在 第 6 章 介绍 。 深 度 优 先 自 顶 向 下 技术 带 来 
了 一 个 非常 简单 的 实现 ， 叫 做 递归 降序 ; 这 种 技术 将 在 6.6 节 介绍 ， 非 常 适 


合 手 工 编写 解析 器 。 由 于 深度 优先 搜索 内 置 于 Prolog 语 言 中 ， 对 这 种 语言 
的 大 量 语法 的 递归 降序 解析 就 可 以 非常 简单 的 定制 ， 使 用 一 个 被 称 

为 “Definite Clause Grammars”(6.7 节 ) 。 这 项 技术 的 适用 性 可 以 扩展 到 
所 有 语法 通过 使 用 一 种 叫做 “cancellation”(6.8 节 ) 装置 。 


自 底 向 上 技术 将 在 第 7 章 介绍 。 广 度 优先 和 自 底 向 上 的 结合 带 来 了 Earley 解 
析 器 ， 对 CF 语法 来 说 其 中 有 一 些 非常 有 效 和 流行 的 解析 器 (7.2 节 ) 。 一 
个 正式 的 相似 但 执行 却 非常 不 同 的 方法 带 来 了 “图 标 解析 ”(7.3 节 ) 。 


Sudkamp [397, Chapter 4] 给 出 了 一 个 完全 正式 的 解释 ， 关 于 [ 广度 优先 | 深 
度 优 先 ][ 自 顶 向 下 | 自 底 向 上 ] 上 下 文 无 关 解 析 。 


3.5.4 线性 化 方法 


LF RM AS RRR RHR > BRA AAT aD ) p: 
输入 的 每 个 附加 符号 都 将 解析 时 间 乘 以 一 个 常数 因子 。 这 些 方 法 只 在 输入 
长 度 非 常 小 的 情况 下 适用 ， 大 约 20 个 字符 就 是 最 大 值 了 。 即 便 是 上 述 方法 
中 最 优 的 ， 在 最 坏 的 情况 下 也 要 求 立方 次 时 间 : 10 个 令 牌 时 需要 1000 次 操 
作 ，100 个 令 牌 时 需要 1000000 次 操作 ， 而 10000 个 令 牌 (一 个 较 大 的 计算 
机 程序 文件 ) 时 则 需要 1012 次 操作 ， 即 便 每 次 操作 只 需 10 纳 秒 也 要 花费 至 
少 3 小 时 的 时 间 。 显 然 在 真实 的 速度 下 ， 我 们 更 希望 有 一 个 线性 时 间 的 计算 
方法 。 不 幸 的 是 ， 至 今 没 有 找到 这 样 一 种 方法 ， 尽 管 没有 证 据 表 明 这 种 方 
法 是 不 存在 的 ， 但 种 种 迹象 却 表明 似乎 情况 就 是 如 此 了 ; 详情 见 3.10 节 。 
将 此 与 非 严 格 短语 结构 解析 方法 相 比 ， 就 可 以 证 明 没 有 这 种 算法 存在 了 

( 见 3.4.2 节 ) ° 


因此 ， 同 时 或 者 永久 的 ， 我 们 将 不 得 不 从 我 们 的 目标 中 拿 掉 一 个 对 象 ， 线 
性 时 间 通 用 解析 器 。 我 们 可 以 有 一 个 最 优 也 是 立方 次 时 间 依 赖 的 通用 解析 
器 ， 或 者 是 一 个 不 能 适用 于 所 有 CF 语法 的 线性 解析 器 ， 但 这 两 者 不 能 兼 
有 。 幸 运 的 是 ， 有 延 时 解析 方法 (特别 是 LR 解析 ) ， 可 以 处 理 大 量 语法 种 
类 ， 但 依旧 如 果 一 个 语法 只 是 用 最 自然 的 方式 来 描述 一 个 预期 的 语言 而 没 
有 涉及 到 分 析 方 法 ， 那 就 只 有 很 小 的 机 会 能 使 用 自动 线性 分 析 。 在 实践 
中 ， 语 法 通常 首先 是 为 了 自然 而 设计 ， 然 后 通过 手动 调整 来 符合 现 有 分 析 
方式 的 要 求 。 这 种 调整 相对 简单 ， 具 体 取 决 于 所 选择 的 方法 。 简 而 言 之 ， 
对 于 任意 给 定语 法 做 一 个 线性 解析 器 有 10% 的 工作 是 艰难 的 ， 而 另外 90% 
可 以 由 计算 机 来 完成 。 


我 们 可 以 通过 限制 非 确 定性 解析 自动 机 的 处 理 位 移 数量 在 每 种 情况 下 只 有 
一 个 来 实现 线性 解析 时 间 。 由 于 这 种 情况 下 一 个 自动 机 的 处 理 位 移 没有 别 
的 选择 ， 所 以 被 称 为 “确定 性 自动 机 ”。 

确定 性 自动 机 的 处 理 位 移 是 由 输入 流明 确 确 定 的 (现在 我 们 可 以 说 是 流 ， 


因为 自动 机 是 从 左 到 右 处 理 的 ) 。 这 个 的 序列 就 是 一 个 自动 机 能 给 出 的 一 
个 句子 的 唯一 一 个 解析 。 如 果 语 法 是 明确 的 那 这 就 是 正确 的 ， 单 如 果 语 法 


不 明确 ， 那 确定 性 自动 机 将 会 把 我 们 定 死 在 一 个 特定 的 解析 中 。 我 们 将 在 
8.2.5.3 节 和 9.9 节 中 细 说 。 


剩 下 的 就 是 解释 如 何 从 语法 中 推导 出 解析 自动 机 的 确定 性 控制 机 制 。 由 于 
对 这 个 问题 没有 一 个 单独 的 很 好 的 解决 办 法 ， 那 么 存在 很 多 的 次 优 的 解决 
方案 就 不 足 为 奇 了 。 从 一 个 非常 广泛 的 角度 来 说 ， 它 们 都 使 用 同样 的 技 
术 : 它们 都 深入 分 析 语法 ， 以 使 可 用 于 识别 死角 的 信息 被 发 现 。 然 后 就 可 
以 避 开 这 些 死角 。 如 果 应 用 于 该 语法 的 方法 ， 能 够 避 开 足够 多 的 死角 并 使 
得 不 在 存在 死角 ， 那 么 这 个 方法 对 于 语法 来 说 就 是 成 功 的 ， 并 且 给 我 们 提 
供 了 一 个 线性 时 间 解 析 器 。 或 者 它 失败 了 ， 那 我 们 要 么 换 另 一 个 方法 要 人 么 
就 改变 语法 使 之 能 够 使 用 该 方法 。 


与 迷宫 问题 的 一 个 大 致 的 类 比 可 能 使 让 这 点 更 清晰 。 如 果 人 允许 我 们 在 迷宫 
中 做 预 处 理 (不 太 可 能 但 有 启发 性 ) ， 那 下 面 的 方法 会 使 我 们 的 搜索 成 为 
确定 性 的 。 我 们 先 假定 迷宫 由 正方 形 房 间 的 网 格 构成 ， 如 果 3.10(a) 所 示 。 
深度 优先 搜索 将 在 迷宫 中 找到 一 个 13 次 移动 的 路 线 oe 。 现 在 我 
们 对 迷宫 预 处 理 如 下 : 如 果 有 一 个 房间 有 3 面 墙 ， 那 么 给 其 加 上 第 4 面 墙 ， 
持续 进 m 。 如 果 现 在 所 有 的 房间 只 有 两 面 或 者 四 
面 墙壁 ， 并 且 没 有 别 的 选择 ee 见 图 3.10(c)， 现 在 路 径 
只 有 5 次 移动 ， 这 个 方法 我 们 就 看 到 如 何 能 将 死角 
识别 出 来 了 ， 用 以 帮助 缩小 ; a 
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Fig. 3.10. A single-exit maze made deterministic by preprocessing 


有 一 点 要 说 明 的 是 ， 上 述 的 类 比 是 有 限 的 。 它 只 关心 迷宫 这 一 个 被 预 处 理 
的 对 象 。 在 解析 中 我 们 要 关注 两 个 对 象 ， 一 个 是 静态 的 并 且 能 被 预 处 理 的 
语法 ， 还 有 一 个 是 变化 中 的 输入 。 (但 请 参阅 问题 3.6 以 扩展 类 推 方法 。 ) 


回 到 解析 自动 机 ， 我 们 可 以 说 ， 它 的 确定 性 更 精确 : 一 个 拥有 前 瞻 符 号 K 的 
解析 自动 机 是 确定 性 的 ， 如 果 它 的 控制 机 制 可 以 ， 那 么 给 予 内 部 管理 和 下 
一 个 符号 K 输 入 信息 ， 以 明确 决定 下 一 步 做 什么 一 要 么 匹配 要 么 预测 以 及 
在 自 顶 向 下 情况 中 预测 什么 ， 要 么 转移 要 么 减少 以 及 在 自 底 向 上 情况 中 如 
何 减少 。 


它 的 原因 是 确定 性 自动 机 创建 了 一 个 线性 时 间 解 析 器 ， 但 这 并 不 完全 明 
显 。 解 析 器 可 能 在 有 限 的 时 间 内 知道 下 一 步 该 做 什么 ， 但 对 于 给 定 输入 仿 
有 牌 可 能 有 很 多 步 要 执行 。 更 具体 的 说 ， 某 些 确定 性 技术 对 于 给 定位 置 K 会 需 
要 K 步 ， 这 表明 二 次 行为 是 可 能 的 〈 见 问题 3.5) 。 但 是 每 个 解析 步骤 要 么 
创建 一 个 新 的 节点 (预测 或 减少 ) ， 要 么 消耗 一 个 输入 令 牌 (匹配 和 转 
移 ) 。 两 个 操作 都 只 能 执行 O(n) 次 ， 其 中 hn 是 输入 的 长 度 : 第 一 个 是 因为 解 
析 树 的 大 小 仅 为 O(n)， 第 二 个 是 因为 只 有 nn 个 输入 令 牌 。 因 此 不 论 各 种 各 样 
的 任务 的 操作 是 如 何 分 布 的 ， 它 们 的 总 和 不 能 超过 O(n)。 


与 语法 类 型 一 样 ， 确 定性 解析 方法 也 可 以 用 缩写 表示 ， 就 像 LL，LALR 等 。 
如 果 一 个 方法 X 使 用 了 前 瞻 符 号 Kk， 那 就 写作 X(K)。 所 有 确定 性 方法 都 需要 
以 某 些 方式 预 处 理 语法 来 推导 出 解析 自动 机 ， 外 加 一 个 解析 算法 或 用 自动 
机 来 处 理 输入 。 
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只 有 一 种 确定 性 自 顶 向 下 方法 ， 它 叫做 LL。 第 一 个 L 代 表 从 左 至 右 (Lift-to- 
Right) ， 第 二 个 是 “确定 最 左 侧 生成 ”(identifying the Leftmost 
production) ， 就 像 定 向 自 顶 向 下 分 析 器 一 样 。LL 解 析 在 第 8 章 中 进行 讲 
解 。LL 解 析 ， 尤 其 是 LL(1) 非 常 受 欢 迎 。LL(1) 解 析 器 通常 是 由 一 个 解析 器 
生成 器 生成 的 ， 但 是 一 个 简 版 的 可 以 通过 手工 费 点 劲 写 出 来 ， 通 过 递归 减 
少 技术 ; 见 8.2.6 节 。 偶 尔 将 LL(1) 方 法 从 输入 的 最 后 一 个 令 牌 开始 ， 这 时 就 
叫做 RR(1)。 


有 很 多 的 确定 性 自 底 向 上 方法 ， 最 强大 的 叫做 LR， 其 中 |L 也 是 值 从 左 至 右 
(Lift-to-Right) > RRA“ RAMKI R” (identifyingthe Rightmost 
production) 。 线 性 自 底 向 上 方法 将 会 在 第 9 章 讲 到 。 他 们 的 解析 器 只 能 是 
由 一 个 解析 器 生成 器 生成 的 : 这 样 一 个 解析 器 的 控制 机 制 太 过 复杂 以 至 于 
人 工 是 无 法 完成 的 。 部 分 确定 性 自 底 向 上 方式 非常 的 受 欢迎 ， 甚 至 可 能 比 

LL(1) 方 式 更 广泛 的 使 用 。 


LR(1) 解 析 比 LL(1) 解 析 更 强大 ， 但 也 更 难以 理解 和 不 那么 方便 。 其 他 方法 
无 法 随便 同 LL(1) 相 比 。17.1 节 有 实用 解析 方式 之 间 的 对 比 。LR(1) 解 析 也 
能 从 输入 最 后 端 开 始 ， 此 时 被 称 作 RL(1)。 


这 两 种 技术 都 使 用 了 前 脆性 来 确定 下 面 的 行动 。 通 常 这 种 前 脆性 会 被 一 个 
令 牌 的 限定 (LL(1)，LR(1) 等 ) ， 或 者 至 多 少数 的 几 个 令 牌 的 限定 ， 但 偶 
尔 不 受 限 的 前 瞻 能 带 来 很 大 帮助 。 这 需要 其 他 的 解析 技术 ， 而 这 会 带 来 确 
定性 解析 器 的 细 化 分 类 ， 见 图 3.11。 


自 顶 向 下 和 自 底 向 上 方法 的 差异 很 大 ， 当 我 们 细 看 不 同 分 析 器 的 选择 时 就 
很 容易 理解 了 。 自 顶 向 下 解析 器 本 质 上 没有 什么 选择 : 如 果 一 个 终结 符 已 
经 被 预测 ， 那 就 没有 别 的 选择 而 只 能 从 存在 的 匹配 中 确定 ; 只 有 当 一 个 非 
终结 符 被 预测 到 了 ， 它 才 有 一 个 选择 那个 非 终结 符 的 选择 。 一 个 自 底 向 上 
解析 器 移 向 下 一 个 输入 符号 ， 即 便 是 缩减 的 也 是 可 以 的 (并且 也 必须 这 样 


做 ) 。 此 外 ， 如 果 可 能 存在 缩减 ， 它 还 可 能 会 
择 。 总 的 来 说 ， 它 比 自 顶 向 下 解析 器 有 更 多 的 
术 来 确定 它 。 
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在 右 侧 的 一 组 中 进行 选 
， 所 以 需要 更 强大 的 技 
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3.5.6 非 规范 方法 


对 于 许多 实用 语法 来 说 ， 上 述 方法 依旧 不 能 产生 一 个 线性 时 间 确 定性 解析 
器 。 通 常 采 取 的 方式 是 对 语法 稍 作 修 改 已 适用 于 选择 的 方法 。 但 不 幸 的 

是 ， 最 终 的 解析 树 无 法 对 应 于 原始 的 语法 ， 后 续 还 需要 在 手动 修改 一 次 。 
另 一 种 方法 是 设计 一 个 解析 器 ， 让 其 一 直 推 导 直 到 没有 可 用 的 信息 ， 然 后 
以 “ 半 猜 测 " 的 方式 持续 解析 直到 信息 再 次 可 用 。 这 样 的 解析 器 被 称 为 非 规范 
的 ， 因 为 它们 以 非 标准 的 方式 在 识别 解析 树 中 的 节点 ，“ 非 规范 "顺序 。 不 用 
说 ， 这 肯定 得 谦 惯 的 实施 ， 一 些 最 强大 、 最 智能 、 最 复杂 的 确定 性 解析 算 
法 就 属于 这 个 范围 内 。 第 10 章 中 会 讲 到 。 


3.5.7 广义 线性 方法 


当 我 们 构建 一 个 确定 性 控制 机 制 的 试图 失败 ， 并 留 给 我 们 非 确定 性 的 但 是 

又 几乎 是 确定 性 的 机 制 时 ， 我 们 还 不 需要 感到 绝望 : 我 们 可 以 回 到 广度 优 

2 在 试验 期 间 内 解决 留 下 的 非 确 定性 问题 。 我 们 原本 的 方法 越 好 ， 
遗留 的 不 确定 性 就 越 少 ， 需 要 用 到 广度 优先 搜索 的 就 越 少 ， 那 解析 器 的 效 

率 就 越 高 。 这 种 解析 器 被 称 为 “广义 解析 器 ”; 对 大 多 数 自 底 向 上 和 自 顶 向 下 

确定 性 方法 ， 广 义 解 析 器 已 经 设计 出 来 了 。 在 第 11 章 中 有 介绍 。 广 义 

LR (或 GLR) (Tomita [162]) 是 现今 可 用 的 最 佳 通用 CF 解 析 器 之 一 。 


当然 ， 重 新 引入 广度 优先 搜索 是 我 们 的 一 个 冒险 。 语 zc 
每 个 输入 中 隐藏 不 确定 性 ， 这 样 会 导致 我 们 的 解析 器 再 次 具有 时 间 依 赖 
性 。 然 而 在 实践 中 ， 从 来 没有 发 生 过 这 种 情况 ， Mix 非常 有 用 。 


3.5.8 总 结 


图 3.11 总 结 了 本 书 中 涉及 的 解析 技术 。Nijholt [154] 绘 制 了 一 个 更 抽象 的 分 
析 视 图 ， 基 于 左 角 解析 。 更 抽象 的 一 个 概要 参见 Deussen [22]。Griffiths 和 
Petrick [9] 在 早期 做 了 一 个 系统 的 调查 。 
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Fig. 3.11. An overview of context-free parsing techniques 


3.6 解析 技术 的 力量 


一 般 来 说 ， 一 个 TI 解析 技术 要 比 一 个 T2 解 析 技 术 更 有 力量 (更 强大 ) ， 

当 T1 能 够 处 理 T2 所 能 处 理 的 全 部 语法 ， 而 不 是 相反 的 情况 。 不 正式 的 说 法 
是 如 果 占 主动 权 的 一 方 可 以 比 另 一 个 处 理 更 多 的 语法 时 ， 那 这 个 解析 技术 
就 比 另 一 个 要 强 。 不 过 这 当然 是 无 稽 之 谈 ， 由 于 所 有 的 解析 技术 都 能 处 理 
无 限 集合 的 语法 ， 那 么 “更 大 "的 概念 就 是 难以 定义 的 。 此 外 ， 一 个 没有 明确 
目的 的 用 户 语法 几乎 没有 任何 可 能 能 符合 现 有 的 解析 技术 。 从 用 户 角 度 来 
看 ， 对 “平均 ”实用 语法 的 修改 已 适用 于 方法 T 来 处 理 的 工作 量 才 是 有 意义 
的 ， 以 及 修复 这 种 修改 对 解析 树 带 来 的 差异 。 解 析 技 术 T 的 力量 (作用 ) 与 
这 个 工作 量 是 成 反比 的 。 


一 个 强大 的 解析 器 总 是 更 复杂 的 ， 相 比 于 弱小 的 解析 器 需要 花费 更 多 的 精 
力 来 编写 它 。 但 由 于 一 个 解析 器 或 者 解析 器 生成 器 〈 见 17.2 节 ) 只 需要 费 
一 次 功夫 编写 好 之 后 ， 就 可 以 想 怎么 用 就 怎么 用 ， 所 以 长 远 来 说 一 个 强大 
的 解析 器 更 省 时 省 力 。 


虽然 一 个 “强大 "的 解析 器 的 概念 很 直观 明了 ， 但 当 解 析 器 和 语法 混在 一 起 时 
就 很 容易 出 现 混淆 了 。 解 析 器 越 强大 那么 语法 的 限制 就 越 小 ， 而 “弱小 的 " 解 
析 器 就 要 限制 语法 了 。 通 常会 使 用 语法 来 命名 解析 器 ， 而 这 也 就 是 混乱 开 
始 的 地 方 。 一 个 “强大 的 LL(1) 语 法 ” 比 “LL(1) 语 法 "有 更 严格 的 限定 ; 也 可 以 
说 是 更 强大 的 LL(1)。 这 样 的 语法 的 解析 器 很 简单 ， 相 比 于 (完整 ) LL(1) 语 
法 ， 并 且 也 是 属于 弱小 的 -- 可 以 承受 的 。 所 以 实际 上 ， 一 个 强大 的 LL(1) 
(strong-LL (1) ) 解析 器 比 一 个 LL(1) 解 析 器 要 弱小 一 些 。 我 们 一 直 都 在 
强调 “强大 (strong) "和 “LL(1) 之 间 的 连 字 符号 ， 以 表明 “强大 "是 用 来 形 
容 “LL(1)" 的 ， 而 不 是 语法 ， 但 并 非 所 有 的 出 版 物 都 会 遵循 这 个 约定 ， 所 以 
读者 一 定 要 清楚 这 一 点 。“ 弱 化 优先 分 析 器 "出 现时 情况 就 反 过 来 了 ，“ 弱 化 
优先 分 析 器 "要 比 “ 优 先 分 析 器 "更 强大 (尽管 还 有 一 些 别 的 不 同 ) 。 


3.7 解析 树 的 表现 形式 


解析 的 目的 是 获取 一 个 或 多 个 解析 树 ， 但 很 多 解析 技术 不 会 提前 告诉 你 会 

有 0 个 、 一 个 、 几 个 或 者 无 限 多 个 解析 树 将 会 生成 ， 所 以 对 于 即将 出 现 的 结 
果 会 缺点 准备 。 有 两 件 事情 我 们 要 避免 : 无 准备 应 对 和 没有 解析 树 ， 以 及 

准备 过 渡 和 分 配 过 多 的 内 存 。 目 前 没有 太 多 的 文章 或 书籍 涉及 到 这 个 问 

题 ， 但 在 论文 中 遇 到 的 技术 性 问题 可 以 分 成 两 个 模型 : 生产 者 -消费 者 模型 
和 数据 结构 模型 。 


3.7.1 生产 者 -消费 者 模型 中 的 解析 树 


在 生产 者 -消费 者 模型 中 ， 解 析 器 是 生产 者 ， 而 使 用 解析 树 的 程序 是 消费 
者 。 正 如 在 计算 机 科学 中 的 生产 者 -消费 者 模型 ， 最 直接 的 问题 是 ， 哪 个 是 
主 进程 哪个 是 子 进程 。 


最 好 的 解决 方案 是 将 他 们 视 为 同等 的 ， 然 后 可 以 使 用 协同 例 程 

(coroutine) 。 协 同 例 程 在 其 他 的 编程 语言 和 编程 技术 原理 中 进行 了 介 
绍 ， 例 如 高 级 程序 语言 设计 ， 作 者 R.A. Finkel (Addison-Wesley)。 在 网 络 
上 也 有 很 多 的 解释 。 


在 协同 例 程 模型 中 ， 用 户 对 新 解析 树 的 需求 和 解析 器 对 解析 树 的 提供 是 由 
协同 例 程 自动 配对 的 。 协 同 例 程 的 问题 是 ， 它 们 必须 被 内 置 到 编程 语言 
中 ， 并 且 没 有 主流 的 编程 语言 适应 它们 。 因 此 ， 对 解析 树 表示 方法 协同 例 
程 并 不 是 一 个 实用 的 解决 方案 。 


协同 例 程 的 现代 表现 方式 ， 线 程 ， 其 中 配对 是 由 操作 系统 或 编程 语言 内 一 
个 轻 量 级 操作 系统 来 完成 的 ， 在 一 些 主要 语言 中 是 可 用 的 ， 但 关于 并 行 性 
概念 的 介绍 并 不 是 解析 所 固有 的 。Unix 管 道 有 相似 的 通信 属性 ， 单 对 解析 
来 说 却 相差 更 大 。 


通常 解析 器 是 主 程序 ， 而 消费 者 是 子 例 程 。 每 当 解 析 器 完成 解析 树 的 构造 
时 ， 它 就 会 将 树 当 做 参数 用 一 个 指针 来 调用 消费 者 例 程 。 然 后 消费 者 就 可 
以 决定 如 何 使 用 解析 树 : 拒绝 它 、 接 受 它 、 存 储 它 以 备 将 来 的 比较 ， 等 

等 。 在 这 个 设置 中 ， 解 析 器 可 以 很 好 的 生成 解析 树 ， 但 是 消费 者 可 能 必须 
在 每 次 调用 之 间 存 储 状 态 数 据 ， 以 便 能 够 在 解析 树 之 间 进 行 选择 。 这 是 解 
析 器 设计 中 通常 的 设置 ， 在 这 里 只 有 一 个 解析 树 ， 而 消费 者 状态 保存 则 不 
是 一 个 问题 。 


还 可 以 将 消费 者 作为 主 程序 ， 但 这 会 给 解析 器 带 来 沉重 的 负担 ， 因 为 解析 
器 必须 在 生成 解析 树 的 过 程 中 保存 全 部 未 完成 解析 的 状态 数据 。 由 于 堆栈 
上 的 状态 不 能 保存 为 状态 数据 (除非 采用 苛刻 的 方法 ) ， 这 种 设置 只 适用 
于 不 使 用 堆栈 的 解析 方法 。 


对 着 这 些 设置 ， 在 大 多 数 情 况 下 用 户 还 有 两 个 问题 。 首 先 ， 当 解析 器 生成 

多 个 解析 树 时 ， 消 费 者 将 它们 作为 独立 的 解析 树 接收 ， 然 后 可 能 需要 做 相 
当 大 的 比较 来 找 出 它们 之 间 的 差别 来 进行 进一步 的 决策 。 ea 
是 无 限 模糊 的 ， 并 且 解 析 器 解析 器 产生 无 限 多 的 解析 树 ， 那 这 个 过 程 将 不 
会 停止 了 。 


所 以 生产 者 -消费 者 模型 对 于 确定 性 语法 是 一 个 令 人 满意 的 方案 ， 但 更 多 的 
情况 下 却 会 有 问题 。 


3.7.2 数据 结构 模型 中 的 解析 树 


在 数据 结构 模型 中 ， 解 析 器 构造 一 个 独立 的 表示 所 有 解析 树 同时 进行 的 数 
据 结 构 。 令 人 惊讶 的 是 ， 即 使 是 无 限 模糊 的 语法 也 可 以 解决 ; 并 且 ， 它 可 
以 在 一 个 与 输入 字符 长 度 的 3 次 畴 成 正比 的 空间 里 完成 。 有 人 说 数据 结构 有 
立方 结构 依赖 性 。 


有 两 种 表现 形式 : 解析 林 和 解析 林 语 法 。 虽 然 两 者 在 本 质 上 是 相同 的 ， 但 
在 概念 和 实际 使 用 中 却 是 大 有 不 同 ， 将 它们 视 为 单独 的 个 体 是 有 必要 的 。 


3.7.3 解析 林 


由 于 森林 只 是 树 的 集合 ， 所 以 解析 林 最 天 然 的 形式 是 由 一 个 单一 的 节点 组 
成 ， 而 解析 林 中 的 所 有 树 都 可 以 直接 访问 。 图 3.2 中 的 两 个 解析 树 合并 到 图 
3.12 中 的 解析 林 中 ， 其 中 节点 中 的 数字 引用 了 图 3.1 的 语法 中 的 规则 号 。 
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Fig. 3.12. Naive parse forest from the trees in Figure 3.2 


当 我 们 看 到 这 幅 图 时 ， 我 们 会 注意 到 两 件 事情 : 虚线 箭头 与 实 线 箭头 的 


义 不 同 ; 结果 树 包含 大 量 重 复 的 子 树 。 而 且 还 会 好 奇 顶部 的 空 节点 应 该 
什么 


虚线 箭头 的 含义 是 “或 -或 " : 顶部 的 空 节点 指向 左边 或 是 右边 的 标记 2 的 节 
点 ， 那 么 实 线 箭 头 就 是 “与 -与 ”: 左边 标记 2 的 节点 由 一 个 标记 Sum 的 节点 与 
一 个 标记 + 的 节点 与 一 个 标记 Sum 的 节点 组 成 。 更 特别 的 是 ， 顶 部 的 空 节 
点 ， 应 该 被 标记 为 Sum 指 向 规则 2 的 两 个 应 用 程序 ， 其 中 每 一 个 都 生 

成 Sum + Sum; 最 左 侧 的 Sum 指 向 一 个 规则 1 应 用 程序 ， 第 二 个 Sum 指 向 
一 个 规则 2 应 用 程序 ， 等 等 。 图 3.13 展 示 了 完整 的 与 -或 树 ， 这 里 我 们 看 到 
pce A ev 即 或 节点 ， 以 及 标记 了 规则 号 的 节 
点 ， 即 与 节点 。A 非 终结 符 的 一 个 或 节点 对 A 的 终结 符 的 子 节点 有 一 个 规则 
号 ; 一 个 规则 号 的 与 节点 有 右 侧 规则 的 子 节点 的 组 件 。 











(3 
Na 


3.7.3.1 合并 重复 子 树 


现在 我 们 可 以 将 解析 林 中 的 重复 子 树 合并 在 一 起 了 。 我 们 通过 保留 标记 了 
非 终 结 符 A 以 及 跨越 输入 的 给 定子 字符 串 的 一 个 副本 来 做 到 。 如 果 A 以 多 种 
方式 来 生成 子 字符 串 ， 那 么 多 个 或 箭头 将 从 标记 了 A 的 或 节点 出 发 ， 每 一 个 
都 指向 一 个 标记 了 规则 号 的 与 节点 。 这 样 ， 与 -或 树 就 变 成 了 一 个 有 向 无 环 
图 ， 一 个 有 向 无 环 图 ， 其 实 正确 的 叫 法 应 该 是 一 个 解析 有 向 无 环 图 ， 也 就 
是 “解析 林 ” 变 得 更 加 通常 了 。 我 们 示例 的 结果 如 图 3.14 所 示 。 
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Fig. 3.14. The parse trees of Figure 3.2 as a parse forest 


必须 注意 的 是 ， 两 个 或 节点 (这 代表 着 规则 的 右 侧 ) 只 能 在 两 个 节点 的 其 
他 所 有 对 应 节点 都 相同 时 才能 合并 。 它 不 会 将 图 3.14 中 顶部 正 下 方 的 两 个 
标记 为 2 两 个 节点 合并 ; 即便 它们 都 是 Sum+Sum， 因 为 其 中 Sum 和 + 都 是 
不 一 样 的 。 如 果 将 它们 合并 在 一 起 ， 那 解析 林 会 展示 出 比 对 应 输入 更 多 的 
解析 树 ; 参见 问题 3.8. 


合并 重复 子 树 的 过 程 可 以 在 解析 过 程 中 ， 而 不 是 所 有 解析 树 都 完成 之 后 。 
这 明显 是 更 高 效 的 ， 并 且 有 额外 的 优势 ， 它 允许 在 无 限 模糊 的 解析 展现 在 
有 限 的 数据 结构 中 。 然 后 解析 林 就 包含 循环 (XR) ， 实 际 上 就 是 解析 图 。 
图 3.15 总 结 了 各 种 Chomsky 语 法 类 型 相对 于 歧义 的 情况 。 请 注意 ， 有 限 状 
态 和 上 下 午 相 关 语 法 不 能 无 限 模糊 ， 因 为 它们 不 能 包含 可 以 为 空 
(nullable) 的 规则 。 有 关 生 产 数据 结构 的 类 似 摘 要 ， 请 参见 图 2.16。 


Most complicated data structure 
Grammar type | unambiguous ambiguous infinitely ambiguous 





CS dag dag 一 
CF tree dag graph 
FS list dag — 


Fig. 3.15. The data structures obtained when parsing with the Chomsky grammar types 


3.7.3.2 从 解析 林 中 检索 解析 树 


解析 林 的 接收 器 有 多 个 选择 。 例 如 ， 可 以 从 它 生成 一 个 解析 树 序列 ， 或 者 更 
可 能 的 是 , 数据 结构 可 以 被 修改 以 别 除 各 种 原因 产生 的 解析 树 。 


从 解析 林 中 生成 解析 树 基 本 上 很 简单 : 或 -或 箭头 的 每 一 个 选择 的 组 合 都 是 
一 个 解析 树 。 实 现 应 该 是 从 上 到 下 的 ， 并 且 在 这 里 可 以 简要 的 勾勒 出 来 。 
我 们 对 图 做 深度 优先 访问 ， 对 于 每 一 个 或 节点 ， 我 们 将 向 外 指出 的 虚线 箭 
头 转 换 为 实 线 箭头 ; 我 们 将 这 些 选 择 记 录 在 一 个 回溯 链 中 。 当 我 们 完成 了 
深度 优先 探索 后 我 们 就 修复 了 一 个 解析 树 。 当 我 们 完成 后 ， 检 查 最 近 的 选 
择 节点 ， 由 回溯 链 提 供 的 最 后 一 个 元 素 ， 然 后 如 果 可 以 的 话 做 一 个 与 之 前 
不 一 样 的 选择 ; 如 果 不 可 用 那么 就 后 退 一 步 ， 如 此。 当 我 们 回溯 完整 个 回 
溯 链 ， 我 们 就 找到 了 所 有 的 解析 树 。 在 图 3.16 中 展示 了 一 个 解析 树 的 实现 


过 程 。 
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Fig. 3.16. A tree identified in the parse forest of Figure 3.14 


首先 挑 出 解析 树 是 很 好 的 选择 。 如 何 完成 这 取决 于 挑选 标准 ， 但 常用 的 技 
术 如 下 。 在 解析 林 中 的 每 个 节点 都 添加 了 信息 ， 其 方式 与 属性 语法 的 内 容 
类 似 (2.11.1 节 ) 。 无 论 何 时 当 该 节点 的 信息 与 该 节点 的 类 型 相 冲 突 时 ， 
都 将 该 节点 从 解析 林 中 移 除 。 这 通常 会 导致 其 他 一 些 节点 成 了 从 上 至 下 无 
法 到 达 的 情况 ， 这 时 也 可 以 将 它们 一 起 移 除 。 


对 图 3.14 的 解析 林 进 行 有 意义 的 挑选 可 以 基于 以 下 依据 ，+ 运 算 符 是 左 关联 
的 ， 这 意思 就 是 atb+c 实 际 是 ( (ath) 4c) 而 不 是 (at (btc) ) 。 然 

后 , 对 于 每 个 具有 + 运算 符 的 节点 , 其 右 侧 的 操作 数 不 能 是 具有 + 运算 符 的 非 
终结 符 。 我 们 看 到 ， 图 3.14 中 标记 为 2 的 左上 节点 违反 了 这 个 规则 : 它 有 一 
个 + 运算 符 和 一 个 有 一 个 节点 (2) 以 及 一 个 + 符号 (位置 4) 的 非 终 结 符 

(Sum) 。 因 此 ， 这 个 节点 可 以 被 移 除 ， 以 及 两 个 子 节点 也 可 以 移 除 。 图 
3.16 中 的 解析 书 依旧 存在 。 


上 面 的 规则 是 在 算术 表达 式 中 关于 运算 符 优先 级 的 一 个 (非常 ) 特殊 的 例 
子 ; 请 参阅 问题 3.10 以 了 解 更 普遍 的 情况 。 


3.7.4 解析 林 语 法 


将 解析 的 结果 作为 语法 展示 可 能 看 起 来 很 奇怪 ， 甚 至 是 有 些 令 人 失望 的 ; 

毕竟 应 该 从 语法 和 字符 串 开 始 ， 做 的 所 有 解析 工作 ， 难 道 最 后 只 是 为 了 成 
AA mE 法 ?但 是 我 们 将 看 到 解析 林 有 相当 多 的 优点 。 但 这 些 优点 都 不 
明显 ， 这 可 能 也 是 为 什么 解析 林 直 到 上 世纪 和 八 十 年 代 才 被 提出 ， 由 Lang 
a 而 “解析 林 语 法 "这 个 词 似乎 是 被 van Noord [221] 首 次 
使 用 。 


图 3.17 将 图 3.2 的 解析 树 显示 为 一 个 解析 林 语 法 ， 而 这 之 间 的 过 程 很 有 

趣 。 对 于 原始 语法 中 的 每 一 个 非 终结 符 A， 会 从 /的 位 置 开始 产生 一 个 长 度 

为 /的 段 ， 在 解析 林 语 法 中 有 一 个 非 终 结 符 A_ d 1， 以 及 显示 A_i /如 何 产生 一 
个 段 的 规则 。 例 如 ， 解 析 林 语法 存在 的 Sum_1_5 展 示 了 Sum 产 生 了 整个 的 
输入 字符 串 (从 位 置 1 开 始 ， 长 度 为 5) ; Sum_1_5 有 多 个 规则 的 事实 表 

明 , 解析 是 不 明确 的 ; 两 个 规则 显示 了 Sum_1_5 产 生 整 个 输入 字符 串 的 两 

种 可 能 方式 。 当 我 们 使 用 这 种 语法 来 生成 字符 串 时 ， 它 只 生成 3+5+1 的 输 

入 字符 串 ， 但 是 生成 了 两 次 ， 由 于 不 明确 而 导致 。 


Sum, 一 Sumi 5 

Sum 15 -> Sum 1 1 + Sum 3 3 
Sum 15 一 Sum 1 3 + Sum 5 1 
Sum 13 —> Sum 1 1 + Sum 3 1 
Sum 3 3 — Sum 3 1+ Sum 5 1 
Sum 11 —> Digit 1 1 

Digit 11 -» 3 
Sum 3 1 一 Digit 3 1 

Digit 31 -> 5 
Sum 5 1 -> Digit 5 1 

Digit 51 -> 1 


Fig. 3.17. The parse trees of Figure 3.2 as a parse-forest grammar 


我 们 写 做 A i /而 不 是 Aj,1， 因 为 A_i /代表 了 一 个 语法 符号 的 名 称 ， 而 不 是 
元 素 A 的 一 个 下 角 标 ; 并 没有 人 A 表 或 矩阵 。A_i MPA i mz xu f X 
系 ; 每 个 A_i /都 是 一 个 单独 的 语法 符号 名 称 。 


现在 说 说 优势 。 首 先 ， 解 析 林 语法 以 图 形 化 的 方式 实现 ， 这 一 概念 已 经 在 
LF PR RAT : 即 应 该 有 一 个 实体 来 描述 一 个 给 定 的 非 终结 符 如 
何 生 成 给 定 的 子 字 符 囊 。 


其 次 ， 它 具有 数学 美 : 现在 解析 一 个 字符 串 可 以 可 以 看 做 一 个 函数 ， 将 一 
个 语法 映射 到 一 个 具体 的 语法 或 一 个 错误 值 。 而 不 是 三 个 概念 一 一 语法 、 
输入 字符 串 和 解析 林 一 现在 我 们 只 需要 两 个 : 语法 和 输入 字符 串 。 更 实 
际 的 是 ， 所 有 用 于 处 理 原始 语法 的 软件 也 可 以 应 用 到 解析 林 语 法 。 





第 三 点 ， 解 析 林 语法 在 梳理 过 后 很 容易 恢复 ， 使 用 2.9.5 中 的 算法 。 例 如 ， 
将 前 Bieta 用 于 图 3.17 中 的 语法 规则 ， 可 以 确定 Sum_1 5 的 第 
一 条 规则 是 相 违 背 的 。 去 除 这 一 条 规则 并 应 用 语法 恢复 算法 生成 图 3.18 的 
明确 的 语法 ， 它 对 应 于 图 3.16 中 的 树 。 


Sums 一 Sum 1 5 
Sum 15 — Sum 1 3 + Sum 5 1 
Sum 13 -—» Sum 1 1 + Sum 3 1 
Sum 11 -> Digit 1 1 
Digit 11 -» 3 
Sum 3 1 -> Digit 3 1 
Digit 31 => 5 
Sum 5 1 -» Digit 5 1 
Digit S $i Fs a 


Fig. 3.18. The disambiguated and cleaned-up parse-forest grammar for Figure 3.2 


第 四 ， 无 限 模糊 解析 是 没有 大 的 影响 的 : 解析 林 语 法 只 生成 无 限 多 个 ( 相 
同 的 ) 字符 串 。 而 产生 无 穷 多 的 字符 串 正 是 语法 通常 所 做 的 。 


最 后 但 同样 重要 的 一 点 ， 它 很 好 的 适应 了 解析 作为 一 个 新 兴 而 又 有 希望 的 
方法 的 交点 ， 这 点 将 在 第 13 章 进一步 讨论 。 


现在 可 以 说 ， 解 析 林 和 解析 林 语 法 实际 上 是 相同 的 ， 前 者 的 指针 在 后 者 中 
ee ene ronan: 
指向 一 个 对 象 ， 然 而 一 个 指 代 可 以 用 来 识别 多 个 对 象 ; 通过 重 载 或 不 明确 
ee aub A a a ies 


个 规则 ， 因 此 在 图 3.14 中 承担 了 顶部 或 节点 的 角色 。 我 们 看 到 ， 在 解析 林 
语法 中 ， 我 们 不 费 丝 毫 就 得 到 了 一 个 与 或 树 机 制 ， 因 为 它 是 建立 在 语法 生 
成 的 机 制 上 的 。 


3.8 什么 时 候 才 是 完成 了 解析 呢 ? 


由 于 非 决 定性 解析 器 是 一 次 性 处 理 整 个 输入 字符 串 ， 并 将 其 汇总 到 一 个 单 
Sr ou o e 
题 就 不 大 会 出 现 了 。 当 数据 结构 完成 后 ， 第 一 阶段 就 完成 了 ; 而 提取 解析 
ap i ai. 


原则 上 ， 一 个 定向 解析 器 处 于 接受 状态 而 所 有 的 输入 都 已 经 结束 ， 就 是 
成 了 。 但 这 本 来 是 重复 要 求 的 ， 有 时 其 中 一 个 条 件 就 蕴含 了 另外 一 个 ; > 
且 通 常 其 他 条 件 会 起 同样 的 作用 。 因 此 ， 对 定向 解析 器 来 说 ， 这 个 答案 很 
复杂 ， 取 决 于 很 多 因素 : 


e 解析 器 是 否 在 输入 的 末尾 ?就 是 说 ， 它 是 不 是 处 理 完了 输入 的 最 后 一 
个 符号 ? 


e 解析 器 是 否 处 于 可 接受 状态 ? 


。 解析 器 是 否 可 以 继续 ， 例 如 ， 如 果 有 下 一 个 字符 ， 解 析 器 是 不 是 能 继 
续 处 理 它 ? 


o 解析 器 是 用 来 生成 解析 树 的 还 是 只 是 作为 一 个 识别 ? 第 一 种 可 能 出 现 
几 种 不 同情 况 ; 第 二 种 的 话 我 们 的 答案 只 会 是 是 / 否 。 


。 如 果 我 们 想 要 解析 数 ， 那 是 想 要 全 部 的 解析 树 还 是 一 个 就 够 了 呢 ? 


e 解析 器 必须 要 接受 整个 输入 ， 还 是 用 符合 语法 的 合适 的 隔离 符 来 进 
TA? (如 果 有 一 个 字符 串 X， 是 另 一 个 字符 串 y 的 开头 部 分 ， 


— KAS o ) 


关于 我 们 是 否 完 成 了 解析 的 问题 的 答案 ， 在 下 表 有 了 对 照 ， 其 实 EOI 代 
表 “ 输 入 结束 "，yes/no 代 表 对 选项 的 回答 。 





at end of can in an accepting state? 
input? | continue? yes no 

_ _ prefix identified / : 

yes yes continue 
continue 

yes no OK (yes) premature EOI (no) 
ore fix] identifie . 

i x prefix identified / — 
continue 
prefix identified & trailing "Wm 

no no ^ error in input (no) 
text (no) 





有 些 答 案 在 直觉 上 是 合理 的 : 如 果 解 析 器 持续 保持 在 不 接受 输入 的 状态 

下 ， 它 应 该 这 样 做 ; 如 果 解 析 器 不 能 保持 在 不 接受 输入 的 状态 ， 那 么 输入 
中 存在 错误 ; 并 且 如 果 解 析 器 在 输入 结束 时 仍旧 保持 可 接受 状态 ， 那 么 解 
析 就 成 功 了 。 但 另 一 些 情况 要 更 复杂 : 如 果 解 析 器 是 在 处 于 可 接受 状态 ， 
我 们 就 会 隔离 一 个 前 级 ， 即 使 解析 器 在 结尾 处 可 以 继续 “与 /或 "处 理 。 如 果 
这 是 我 们 想 要 的 ， 那 我 们 可 以 停止 了 ， 但 通常 情况 下 ， 只 要 可 以 继续 我 们 
就 会 想 要 继续 : 语法 S--->alab 以 及 输入 ab， 我 们 可 以 在 a 和 声明 a 的 一 个 前 
组 后 结束 ， 但 很 可 能 的 是 我 们 会 想 要 继续 下 去 ， 直 到 ab 整个 被 解析 结 

这 可 能 是 事实 ， 即 便 我 们 已 经 处 于 结尾 处 : 语法 S--->alaB， 其 中 BB 生 成 E， 
我 们 要 继续 输入 a 以 及 解析 B， 如 果 我 们 想 要 获取 所 有 的 解析 。 如 果 解 析 器 
做 不 到 ， 我 们 在 语言 中 识别 了 一 个 字符 串 ， 错 误 信 息 通常 被 称 为 “尾随 垃 
圾 ”(trailing garbage) ° 

请 注意 ，“ 过 早 处 于 结尾 (premature EOI) ”( 在 语言 中 一 个 字符 串 的 输入 
是 一 个 前 缓 ) ， 是 “前 组 隔离 〈prefix isolated) ”( 输 入 的 前 组 是 语言 中 的 
一 个 字符 串 ) 的 对 偶 。 如 果 我 们 正在 找 一 个 前 级， 那 我 们 一 般 会 想 找到 最 
长 的 可 能 的 前 级 。 这 可 以 通过 标记 最 近 的 被 识别 为 前 组 的 位 置 P， 然 后 继续 
解析 直到 我 们 到 达 结 尾 或 者 出 现 错误 被 卡 住 。 那 么 P 就 是 最 长 前 缓 的 末尾 。 


许多 定向 解析 器 使 用 前 瞻 方 式 ， 这 意味 着 即便 在 输入 的 末尾 ， 也 必须 有 足 
够 的 令 牌 用 于 前 瞧 。 这 可 以 通过 引入 一 个 输入 结尾 令 牌 来 实现 ， 例 如 大 或 其 
他 任何 语法 中 没有 的 令 牌 。 对 于 一 个 使 用 K 个 令 牌 做 前 瞻 的 解析 器 ，K 个 # 的 
副本 将 会 被 追加 到 输入 字符 串 中 ; 解析 器 的 前 上 脆 机 制 将 会 也 会 进行 相应 修 
A ; 例子 参见 9.6 节 。 唯 一 的 接受 状态 就 是 第 一 个 # 即 将 被 接受 的 状态 ， 而 
这 通常 也 表示 解析 完成 了 。 


这 大 大 简化 了 目前 的 情形 和 上 面 的 表格 ， 因 为 现在 解析 器 在 输入 没有 结 
时 不 能 处 于 可 接受 状态 。 这 去 掉 了 上 表 中 前 级 的 两 个 答案 。 然 后 我 们 将 上 
表 的 上 下 部 分 进行 重 加 ， 然 后 最 左边 的 列 就 变 得 多 余 了 。 就 变 成 了 下 面 这 
张 表 : 


can in an accepting state? 
continue? yes no 
yes 一 continue 
no OK (yes) error in input / 
premature EOI 
(no) 





后 我 们 将 区 分 “错误 输入 ”和 "过 早 结 束 "的 工作 交 给 错误 报告 机 制 来 完成 。 


Sree tee is E ， 所 以 每 个 解析 器 都 有 自己 的 停 
止 标 准 ， 这 是 一 个 有 点 不 理想 的 状态 。 这 本 书 中 ， 我 们 将 使 用 最 终 输 入 标 
记 ， 只 要 它 有 助 于 终止 ， 并 且 当 然 ， 对 于 解析 器 使 用 前 验 机 制 。 


3.9 传递 闭 包 


解析 中 的 许多 算法 〈 以 及 在 计算 机 科学 中 的 许多 其 他 分 支 ) 都 具有 一 些 从 
初始 信息 开始 的 属性 ， 然 后 根据 一 些 理论 规则 推 到 得 出 结论 ， 一 直到 不 能 
得 出 更 多 的 结论 为 止 。 在 2.9.5.1 和 2.9.5.2 节 中 的 推理 规则 中 , 我 们 已 经 看 
到 了 两 个 例子 。 这 些 推理 是 完全 不 同 的 ， 并 且 一 般 的 推理 规则 可 以 是 任意 
复杂 的 。 为 了 得 到 一 个 清晰 的 计算 结论 的 算法 ， 闭 包 算法 ， 我 们 现在 将 考 
虑 一 个 最 简单 的 可 能 的 推理 规则 : 传递 性 。 这 种 规则 的 形式 如 下 : 


ARA BHEB CAAA C 


其 中 “是 任意 符合 规则 的 操作 符 。 最 明显 的 是 =， 但 是 < 和 | 以 及 其 他 许多 
也 是 可 以 的 。 但 是 “| (不 等 于 ) 却 不 是 的 。 
作为 一 个 例子 ， 我 们 将 考虑 一 个 非 终结 符 的 “ 左 角 集 "的 计算 。 一 个 非 终结 


符 B 在 一 个 非 终结 符 A 的 左 角 集 中 ， 如 果 有 一 个 派生 A_B…， 知 道 这 点 有 
时 是 有 用 的 ， 因 为 在 其 他 方面 来 说 ， 任 何 B 可 以 开始 的 字符 A 也 都 能 开始 。 


有 下 面 这样 一 个 语法 
S, — ST 
S — Aa 
T 一 At 
A — Bb 
B > cec 
C — x 


我 们 如 何 才 能 找 出 C 在 S 的 左 角 集中 ?语法 中 的 规则 S _ ST 和 S_，_Aa 立 即 
就 让 我 们 知道 S 和 A 在 S 的 左 角 和 集中。 我 们 把 这 写作 SLS 和 ALS， 其 中 人 人 代 
表 左 角 。 这 同样 告诉 我 人 ALT,BLA， 还 有 CLB。 这 是 我 们 的 初始 信息 
(图 3.19 (a) ) ° 


SZS SLS Y BZS v cZsv 


AZS A/SV CS 
A/T A/Swv CAT 
BZA BZS CAS W 
CZB BZT CZT 

BZS Y 

BZTV 

CZA 

CLAY 


(a) (b) (c) (d) 


Fig. 3.19. The results of the naive transitive closure algorithm 


现在 很 容易 看 出 ， 如 果 A 在 BB 的 堪 角 集中 ，B 在 C 的 堪 角 集中 ， 那 么 A 也 在 C 
的 左 角 人 和 集中。 公式 如 下 : 


AZBABZLC, AZC 


这 是 我 们 的 推理 规则 ， 而 且 我 们 将 使 用 它 来 得 出 新 结论 或 “推论 "， 通 过 两 两 
组 合 已 知 的 事实 来 产生 更 多 的 已 知 因子 。 然 后 通过 应 用 推理 规则 直到 不 再 
产生 新 的 因子 来 获得 传递 闭 包 。 在 传递 闭 包 的 上 下 文中 ， 因 子 也 被 称 为 “ 关 
系 "”， 虽 然 一 般 人 是 〈 二 进 制 ) 关系 ， 并 且 ALB 和 BALC 是 关系 的 "实例 "。 


通过 图 3.19 (a) 中 的 列表 ， 我 们 首先 将 S 人 LS 和 SLS 结合 起 来 。 这 将 产生 

SLS, 这 是 相当 令 人 失望 的 因为 我 们 已 经 知道 了 ; CEA 3.19 (b) P, HA 
一 个 水 以 表明 它 不 是 新 的 。 (SLS, ALSH) 结合 产生 ALS， 但 是 我 们 也 
已 经 知道 了 。 没 有 其 他 的 因子 与 S 人 LS 结合 ， 所 以 我 们 继续 看 AZLS， 而 这 得 
到 了 ALS 和 BALS ; 第 一 个 我 们 已 经 知道 了 ， 但 是 第 二 个 是 第 一 次 被 我 们 知 
道 。 接 着 (ALT, BZA) 就 得 到 了 BALT， 等 等 ， 做 完 剩 下 部 分 的 第 一 轮 结 
果 见 图 3.19(b)。 


第 二 轮 结合 了 三 个 有 新 有 昌 的 因子 。 第 一 个 是 发 现 由 ALS 和 CLA (c) 得 到 
了 CLS ,第 二 个 发 现 是 CLT。 


第 三 轮 将 (c) 中 的 两 个 新 因子 与 (a) > (b) > (o) 中 的 结合 起 来 ， 但 
没有 发 现 新 的 因子 ; 所 以 这 个 算法 最 终 发 现 了 10 个 因子 。 


请 注意 ， 我 们 已 经 在 这 个 初级 算法 中 实现 了 一 次 优化 : 基础 算法 将 启动 第 
二 轮 甚至 更 多 轮 次 ， 通 过 将 已 知 的 所 有 因子 之 间 配 对 ， 而 不 仅仅 只 是 在 新 
发 现 的 因子 之 间 。 


在 一 个 图 中 用 约 线 表示 因子 或 关系 通常 是 有 帮助 的 。 最 初 的 情况 见 图 3.20 
(a)， 最 终 的 结果 见 (b) » HAFRHRFRAGAGATFAR T LH 
算 。 





(a) (b) 


Fig. 3.20. The left-corner relation as a graph 


Cu inca E aa Wan a 而 传递 规则 的 
情况 被 广泛 的 进行 了 研究 。 传 递 闭 包 主 要 有 三 种 方法 来 进行 : 初级 版 、 普 
通 版 和 高 级 版 ; he 行 介 绍 。 oo 
法 ， 在 通常 情况 下 往往 是 相当 有 效率 的 ， 但 会 画 出 一 张 很 大 的 图 ， 而 且 特 
殊 情 况 下 可 能 会 需要 计算 很 多 轮 。 同 样 它 还 会 重复 计算 很 多 次 ， 我 们 可 以 
在 图 3.19 中 看 出 ; 15 个 结果 中 有 10 个 是 已 经 得 到 了 的 。 但 考虑 到 “正常 " 语 
法 的 大 小 ， 初 级 算法 几乎 可 以 满足 所 有 情况 下 的 解析 。 


普通 的 进行 传递 闭 包 的 方式 是 使 用 Warshall 的 算法 [409]。 其 优势 是 非常 简 
单 实现 ， 而 且 它 需要 的 时 间 仅 取决 于 图 中 和 N 节 点 的 数量 而 不 是 弧 线 的 数 

量 ， 但 它 的 缺点 是 总 是 需要 O(N3) 的 时 间 。 这 回 让 它 在 和 其 他 任何 闭 包 
算法 的 比较 中 总 是 输 掉 。 

高 级 算法 ud 导致 初级 算法 效率 底下 的 劣势 : 1. 图 中 的 圆圈 被 收缩 为 “ 强 


联通 分 量 ”; 2. 缴 线 以 一 种 顺序 组 合 起 来 ， 而 不 是 重复 
TIAE 3 3. 使 用 更 有 效 的 数据 表示 2 45] 如 * 一 个 高 算法 首先 会 计算 从 A 的 所 


有 输出 缴 ， 然 后 将 之 找 贝 至 T 而 不 是 重新 计算 一 次 。Tarjan [334] 描述 了 第 
一 个 高 级 可 传递 闭 包 算法 。 并 在 其 他 很 多 刊物 上 广泛 转载 ; 见 Nuutila[412] 
和 互联 网 。 它 需要 的 时 间 与 其 最 终 得 出 的 结果 数量 成 正比 。 


高 级 可 传递 闭 包 算法 在 大 型 应 用 程序 (数据 库 等 ) 中 非常 有 用 ， 但 它 在 解析 
中 的 位 置 确实 令 人 怀疑 的 。 一 些 作者 建议 在 LALR 解 析 器 生成 器 中 使 用 它 
们 ， 但 应 该 在 非常 庞大 的 语法 上 使 用 ， 以 保证 算法 的 复杂 性 有 一 个 很 好 的 
回报 。 


强调 算法 的 闭 包 性 质 的 优点 可 以 让 人 集中 于 推理 规则 ， 并 将 底层 的 闭 包 算 
法 当做 理所当然 ; 这 对 于 算法 设计 很 有 帮助 。 然 而 大 多 数 的 解析 算法 都 很 
简单 ， 以 至 于 不 需要 分 解 成 推理 规则 和 闭 包 解释 。 因 此 我 们 将 仅 在 有 助 于 
理解 的 地 方 使 用 推理 规则 (9.7.1.3 节 ) ， 以 及 当 其 原本 就 是 语法 的 一 部 分 
的 情况 下 使 用 〈7.3 节 ， 图 表 解 析 ) 。 对 于 其 余 的 我 们 将 简单 的 讲述 算法 ， 
然后 指出 他 们 是 传递 闭 包 算 法 得 出 的 。 


3.10 解析 与 布尔 矩阵 乘法 的 关系 


在 解析 和 布尔 给 阵 乘法 之 间 有 一 个 显著 但 又 有 点 神秘 的 关系 ， 因 为 很 可 能 
把 一 个 转换 为 另 一 个 ， 带 有 很 多 可 能 和 但 是 。 这 有 很 有 趣 的 含义 。 


一 个 布尔 矩阵 是 一 个 其 中 所 有 元 素 只 能 为 0 或 者 1 的 矩阵 。 比 如 如 果 一 个 矩 
阵 7 的 索引 代表 镇 ， 那 ZART jT 能 就 表示 城镇 /到 城镇 /的 直达 铁路 的 距 

A o AR AF 869 4g T v] VA Fo A Sb — AHE E Uy c R ， 这 可 以 表示 比如 ， 一 个 城 

镇 到 城镇 K 的 直达 巴士 的 距离 。 而 ViK (Te Ut ded). 的 结果 是 一 个 布尔 

矩阵 ， 这 代表 从 城镇 j 到 城镇 k 是 否 能 联通 ， 首 先 考虑 火车 然后 才 是 巴士 。 

这 立刻 就 可 以 展示 Vi Kk 是 怎样 计算 出 来 的 : 必须 有 一 个 1， 如 果 存 在 一 个 /使 
得 万 /和 Up 都 能 有 保有 一 个 1， 否 则 就 必须 有 一 个 0。 公 式 如 下 : 


Vik= (Ti1 NU14)V(T;2 M U2 RV: V(Ti n ^ Unk) 


其 中 是 布尔 运算 的 和 ，V 是 布尔 运算 的 或 ，n 是 矩阵 的 大 小 。 这 意味 
着 OUn) 的 行为 被 V 的 每 次 输出 所 要 求 ， 其 中 就 有 n2 ; 所 以 这 个 算法 的 时 间 
复杂 度 为 O(n3)。 


图 3.21 给 了 一 个 示例 ; EET <sub> ky FEU * 2 的 列 结合 得 到 了 给 
BEV 2 的 输出 。 布 尔 和 给 阵 的 乘法 运 拭 中 ， 是 不 遵守 交换 律 的 : 可 以 大 致 的 
理解 为 从 一 个 镇 到 另 一 个 镇 有 一 个 火车 -巴士 的 路 线 ， 但 是 没有 巴士 -火车 的 
路 线 ， 也 就 是 TxU 不 等 于 UxT*。 注 意 这 个 跟 传递 闭 包 是 不 同 的 : 在 传递 闭 
包 中 ， 一 个 单一 关系 遵循 无 限 的 次 数 ， 而 在 布尔 矩阵 运算 中 则 是 一 个 关系 
结果 之 后 才 有 第 二 个 。 


T V 
0 0 0 0 0 0 i0 1 0 0 0 0 0 0 0 
0.0 0. 0 o i0 0 1 0 0 |; 0 0 0 
oo 0 1 of X |i œ 0 0 of = Jo 0 0 0 0 
0 0 0 0 0 0:0: 0 0 0 0 0 00 0 
1 0 0 0 0 0 TE 0 0 0 0 0 1 0 0 


Fig. 3.21. Boolean matrix multiplication 


上 述 是 布尔 矩阵 乘法 (BMM) 的 一 个 小 实战 ， 实 际 上 BMM 在 许多 数学 和 工 
科 分 支 中 是 非常 重要 的 ， 并 且 关于 如 何 高 效 的 使 用 它 有 一 个 完整 的 学 科 1 。 
数 十 年 的 集中 努力 带 来 了 一 系列 越 来 越 高 效 和 负责 的 算法 。V. Strassen ^ 
第 一 个 打破 O(n 了 ) 阻 碍 的 算法 ， 使 用 的 是 O(n281”) 算 法 ， 到 了 现在 这 个 记 
3 X 0(n? 3/67) ; 时 间 是 1987 年 。 很 明显 ， 至 少 O(n2) 次 运行 是 必须 的 ， 
但 目前 看 来 这 个 时 间 复 杂 度 是 达 不 到 的 。 


对 我 们 的 论点 来 说 更 重要 的 是 ， 在 1975 年 Valiant [18] 展 示 了 如 何 将 一 个 CP 
解析 问题 转换 为 一 个 BMM 问 题 。 特 别 的 是 ， 如 果 可 以 在 O(nK) 次 操作 中 将 

两 个 nxn 的 布尔 矩阵 相 乘 ， 那 就 可 以 在 On 多 +O(n2) 步 中 解 本 一 个 长 度 为 

的 字符 串 ， 其 中 OUn2) 是 转换 的 成 本 。 因 此 ， 我 们 可 以 在 O(n2.376…) 中 进 

行 一 般 的 CF 解 析 ， 这 确实 比 CYK 算 法 的 立方 时 间 依 赖 性 要 好 。 但 是 Valiant 
算法 和 快速 BMM 算 法 都 太 过 复杂 和 耗 时 ， 所 以 这 种 方法 只 有 当 输 入 字符 串 
以 百 万 计 甚 至 更 多 的 时 候 才 拿 来 使 用 比较 好 。 更 要 命 的 是 ， 它 要 求 所 有 的 

输入 都 必须 存储 在 内 存 中 ， 因 为 它 是 无 方向 的 算法 ， 因 此 它 使 用 的 数据 结 

构 的 大 小 是 DO(n2)， 这 意味 着 它 只 能 在 内 存单 位 的 TB 的 计算 机 上 运行 。 简 

而 言 之 , 它 的 意义 只 是 理论 上 的 。 


在 2002 年 Lee [39] 显 示 了 一 个 BMM 问 题 如 何 转换 为 一 个 CF 解析 问题 。 特 别 
的 是 ， 如 果 你 可 以 在 O(n 了 0) 次 操作 中 对 一 个 长 度 为 n 的 字符 囊 进行 常规 CF 
解析 ， 那 就 能 在 O(m3 -9/3) 次 操作 中 将 两 个 大 小 为 xn 的 布尔 矩阵 相 乘 。 那 
就 再 次 出 现 了 O(n2) 的 转换 成 本 ， 但 由 于 5 最 多 可 为 2 (不 太 可 能 在 O(n) 中 解 
析 一 个 实例 ) ，O(n3-0/3) 的 步 台 至少 是 O(n? 一 )， 这 决定 了 O(n2) ; 要 注 
意 5 = 0 的 情况 O(n3) 通 常 是 多 个 问题 的 边界 。Lee 的 转换 所 涉及 的 计算 工作 
量 比 那些 用 Valiant 算 法 的 要 小 的 多 ， 所 以 一 个 真正 快速 的 通用 CF 解 析 算 法 
可 能 会 提供 一 个 快速 实用 的 BMM 算 法 。 这 样 一 个 快速 通用 的 CF 算法 必须 是 
非 BMM 并 且 比 O(n3) 具 有 更 高 的 时 间 复 杂 性 ; 但 不 幸 的 是 目前 还 不 知道 这 
样 的 算法 。 


一 般 的 CF 和 布尔 矩阵 乘法 有 共同 之 处 ， 其 最 佳 算 法 的 效率 是 未 知 的 。 图 
Fig 3.22 总 结 了 各 种 可 能 性 。x 轴 表示 最 佳 CF 算 法 的 效率 ; y 轴 表示 最 佳 
BMM 算 法 的 效率 。 图 中 的 位 置 表示 了 这 些 值 的 组 合 。 由 于 这 些 值 是 未 知 
的 ， 我 们 不 知道 图 中 的 哪个 点 对 应 于 实际 ， 但 是 我 们 可 以 排除 几 个 区 域 。 


best know m BMM | ari tere | 
n? | 2----|H------- 


Valiant 




















no 4 
2 3 
n? n! n^ n 





best parsing 


Fig. 3.22. Map of the best parser versus best BMM terrain 


在 现 有 算法 的 基础 上 灰 CB AGRA + 例如 ， 在 1 的 重 直 线 的 右 侧 灰 色 部 
分 由 于 CYK 算 法 被 排除 了 ， 它 在 On 3) 中 进 和 行 一 般 的 CF 解析 ; 所 以 其 组 合 
(最 好 的 解析 器 ， 最 好 的 BMM) 不 能 有 一 个 大 于 O(n3) 的 第 一 组 件 。 同 样 
ed went men eas 
因为 解析 器 必须 到 达 每 个 令 牌 。BMM 要 求 至 少 O(n2) 次 动作 ， 但 已 经 
ae Rope inn Sete 


明 影 标记 部 分 是 被 Valiant 和 Lee 转 换算 法 排除 的 部 分 。Valiant 的 结果 不 包括 
i ky ; Lee 49 2E JR 6, TR RAS de AM BAD o REGERE 
解析 和 BMM 算 法 的 组 合 只 能 在 中 间 的 白色 无 阴影 区 域 中 。 


对 BMM 算 法 的 广泛 研究 并 没有 产生 一 个 比 O(n3) 更 实用 的 算法 ; 由 于 BMM 
可 以 被 转换 为 解析 ， ww 关于 CF 一 般 算 法 的 没 那么 广泛 的 
研究 没有 产生 比 O(n 3 更 实用 的 算法 > 除了 通过 BMM 。 另 一 方面 ， 图 Fig 
3.22 显 Pau 前 CF 解析 还 是 有 可 能 成 为 线性 的 (O(n du ， 以 及 BMM 可 能 

rt O(n 2)g nat o 


ee 通 CF 解 析 和 一 个 特定 形式 在 一 个 格子 中 用 最 短路 径 连 
接 起 来 ， X^ 义 。 


3.10 解析 与 布尔 矩阵 乘法 的 关系 


Greibach [389] 描 述 了 “最 难 的 上 下 文 无 关 语言 "， 是 一 种 语言 ， 如 果 我 们 能 
在 时 间 O(n 六 内 解析 它 ， 那 我 们 就 在 O(n 时 间 内 解析 任何 语言 。 不 用 说 ， 
肯定 很 难 解析 。 本 文 隐 式 的 使 用 了 一 种 很 少 被 注意 到 的 解析 技术 ; 见 问题 
3.7 ° 


* For a survey see V. Strassen, "Algebraic complexity theory", in 


Handbook of Theoretical Computer Science, vol. A, Jan van 
Leeuwen, Ed. Elsevier Science Publishers, Amsterdam, The 


Netherlands, pp. 633-672, 1990. e 
- V. Strassen, "Gaussian elimination is not optimal", Numerische 


Mathematik, 13:354-356, 1969. e 
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语法 允许 通过 一 个 明确 的 过 程 产 生 和 句子 ， 而 这 个 过 程 的 细节 决定 了 句子 的 
结构 。 解 析 通 过 模拟 产生 过 程 ( 自 顶 向 下 解析 ) 或 回 滚 ( 自 底 向 上 解析 ) 
来 恢复 这 个 结构 。 申 正 的 工作 是 收集 信息 来 指导 有 效 的 恢复 结构 的 过 程 。 


有 一 个 完全 不 同 的 -- 令 人 惊讶 的 -- 无 语法 方式 来 进行 CF 解析 ，“ 面 向 数据 分 
析 ”， 这 在 本 书 的 范围 之 外 。 见 Bod [348] 以 及 互联 网 。 


问题 


问题 3.1 : 假设 给 定语 法 中 的 所 有 终结 符 是 不 同 的 。 语 法 是 否 明确 ? 


问题 3.2 : 编写 一 个 程序 , 给 定 一 个 语法 G 和 一 个 数字 nm, 计算 G 人 允许 的 不 同 的 
有 nn 个 叶子 (终端 ) 的 解析 树 的 数量 。 


问题 3.3 : 如 果 您 熟悉 现 有 分 析 器 (生成 器 ), 请 标识 其 分 析 器 组 件 , 如 69 页 所 


问题 3.4 : 3.5.4 节 中 的 迷宫 预 处 理 算 法 消除 了 所 有 具有 三 壁 的 房间 ; 在 确 
定性 迷宫 中 有 两 面 或 四 面 墙 的 是 可 以 接受 的 。 那 么 没有 墙 或 者 只 有 一 面 墙 
的 房间 呢 ? 它们 如 何 影响 算法 和 结果 ? 消除 掉 它 们 是 否 可 能 /有 用 ? 


问题 3.5 : 构造 一 个 例子 ， 使 得 一 个 确定 性 自 底 向 上 解析 器 ， 对 于 某 个 K， 
EAL E Jets AR UH IG AME © 


问题 3.6 : RA : A 3.10(b) 中 的 迷宫 有 几 种 可 能 的 路 径 ， 因 此 一 个 迷宫 定 
义 了 一 组 路 径 。 很 容易 就 可 以 看 出 这 些 路 径 形 成 了 一 个 常规 集合 。 这 样 一 
个 迷宫 等 同 于 一 个 语法 。 深 入 挖掘 一 下 这 个 类 比 ， 例 如 : 1. 从 迷宫 的 某 些 
描述 中 推 到 出 语法 规则 。2. 子 集 算 法 (5.3.1 节 ) 如 何 变化 迷宫 ?3. 是 否 有 
可 能 生成 一 组 迷宫 ， 它 们 一 起 可 以 定义 一 个 给 定 的 CG 集合 ? 


问题 3.7 : RA: 研究 Greibach [389] 的 "平移 和 交叉 匹配 括号 " 解析 方法 。 


问题 3.8 : 展示 图 3.14 的 一 个 版 本 ， 其 中 在 顶部 附近 标记 为 2 的 节点 联合 了 
在 输入 中 不 支持 的 解析 数 。 


问题 3.9 : 实现 3.7.3 中 草 绘 的 回溯 算法 的 蓝图 。 


问题 3.10 : 假设 算法 表达 式 用 一 个 高 度 模糊 的 语法 解析 ， 其 中 对 数字 进行 
了 适当 的 定义 。 设 计 一 个 条 件 可 以 帮助 优化 解析 林 ， 以 获取 服从 运算 符 一 
般 优 先 权 的 解析 树 。 例 如 ，4+5x6+8 应 该 是 ((4+(5x6))+8) 这 样 的 。 考 虑 到 
前 四 个 运算 符 是 左 结合 ， 但 徊 运算 + 是 右 结合 运算 符 : 6/6/6 可 以 写成 
((6/6)/6)， 但 61+616 却 是 (6 1 (6 1 6)) » 


Expr; — Number 
Expr 一 Expr Operator Expr | ( Expr ) 
Operator > + | - | x | / | 


问题 3.11 : 研究 项 目 : 一 些 解析 问题 包含 了 非常 大 的 CF 语 法 ， 有 数 百 万 的 
规则 。 这 样 的 语法 是 由 程序 生成 的 ， 并 且 将 会 把 有 限 的 上 下 文 条 件 合并 到 
语法 中 。 它 通常 是 非常 多 余 的 ， 和 包含 许 多 相似 的 规则 ， 并 且 非 常 不 精确 。 
许多 常规 CF 解析 器 在 语法 范围 内 是 二 次 的 ， 上 千 万 的 规则 带 来 1014 的 因 
子 。 能 找到 一 个 解析 技术 可 以 在 这 样 的 语法 上 很 好 的 工作 吗 ? ( 另 请 参见 
问题 4.5。) 


问题 3.12 : 扩展 项 目 : 


1. XT — 4 4 5 (ty to) to RSP A HHHH DSH WT AAP A Bt 2o > AB 
么 一 个 字符 串 S 是 平衡 的 ， 其 中 凡是 S 或 其 前 组 中 t 出 现 的 次 数 。 一 个 令 
牌 对 (17,12) 对 语法 G 来 说 是 括号 对 ， 如 果 所 有 L(G) 的 字符 串 对 于 (17,12) 
来 说 都 是 平衡 的 。 设 计 一 种 算法 来 检查 令 牌 对 (17,12) 是 否 是 括号 对 ， 对 
于 给 定语 法 G : a) 在 简化 但 合理 的 假设 下 ， 括 号 对 一 起 出 现在 规则 的 右 
W (例如 F，(E)) ，b) 普 通 情况 下 。 


2， 在 字符 串 中 位 置 的 令 牌 1J 和 位 置 /的 令 牌 2 相 匹配 ， 如 果 它 们 之 问 的 字 
FEB IAT -1 对 于 (11,12) 是 平衡 的 。 一 个 括号 对 (11,12) 和 另 一 个 括号 
对 (U1,U2) 是 兼容 的 ， 如 果 L(G) 字 符 串 中 每 一 个 段 对 于 一 个 1] 以 及 其 匹 
配 的 t2， 对 于 (U1,u2) 都 是 平衡 的 。 证 明 如 果 (17,12) 与 (u1,u2) 兼 容 ， 那 
么 (U1,U2) 与 (11,t2) 兼 容 。 

3， 对 于 一 个 给 定语 法 ， 设 计 一 个 算法 来 找到 最 大 的 兼容 括号 对 集合 。 

4. 使 用 括号 对 集合 来 构造 L(G) 中 的 句子 ， 在 线性 时 间 内 。 

5， 从 G 中 获取 有 关 L(G) 中 不 以 这 种 形式 构造 的 字符 囊 段 的 信息 ， 例 如 正 
则 表达 式 。 


6. 设计 更 进一步 的 技术 来 利用 CF 语言 的 括号 对 蓝图 。 


问题 
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4 一 般 非 定向 分 析 


在 这 章 中 我 们 将 会 介绍 两 种 解析 方法 ， 都 是 无 向 的 : Unger 法 和 CYK 法 。 
这 些 方法 被 称 为 无 向 性 ， 因 为 它们 以 看 似 任意 的 方向 接受 输入 。 它 们 要 求 
在 解析 开始 之 前 ， 所 有 的 输入 都 存储 在 内 存 中 。 


Unger 方 法 是 自 顶 向 下 的 ; 如 果 输 入 属于 这 个 语言 ， 则 必须 从 语法 的 起 始 
TT a mio MT n duds 
AT1A2...A1m。 这 反 过 来 又 意味 着 AT 必须 可 以 推倒 出 输入 的 第 一 部 分 ，A2 必 
须 可 以 推倒 出 第 二 部 分 ， 等 等 。 如 果 输 入 的 句子 是 17t2...tn， 这 个 需求 可 以 
描述 如 下 : 


Unger 方 法 试图 找到 适合 这 个 需求 的 输入 的 分 区 。 这 是 一 个 递归 问题 : 如 
果 一 个 非 终结 符 Aj 要 推导 出 输入 的 某 个 部 分 ， 则 这 部 分 的 一 个 分 区 必须 适 
应 Aj 的 右 侧 。 最 终 ， 这 样 的 右 侧 必 须 由 仅 有 终结 符号 组 成 ， 并 且 这 些 可 以 
很 容易 与 当前 的 输入 部 分 相 匹配 。 


CYK 方 法 用 另 一 种 方法 来 解决 这 个 问题 : 它 试图 在 输入 的 右 侧 中 找到 出 现 
的 部 分 ; 每 当 找 到 一 个 ， 它 就 在 推导 出 这 一 部 分 的 左 侧 的 位 置 标记 一 下 。 
用 相对 应 的 左 侧 来 替换 右 侧 出 现 的 部 分 ， 结 果 会 产生 输入 的 一 些 句子 形 

式 。 这 些 句子 形式 再 次 成 为 查询 右 侧 的 对 象 。 最 终 ， 我 们 可 能 会 找到 一 个 
句子 形式 ， 可 以 同时 派生 输入 句子 和 属于 起 始 符号 的 右 侧 。 


在 接 下 来 的 两 节 中 ， 将 会 对 这 些 方 法 进行 详细 介绍 。 


4 一 般 非 定向 分 析 
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4.1 Unger 解 析 方 法 


Unger 解 析 方 法 [12] 由 一 个 CF 语法 和 一 个 输入 句子 组 成 。 我 们 将 首先 讨论 
Unger 解 析 方 法 的 语法 部 分 ， 不 含 e 规 则 和 循环 ( 见 2.9.4 节 ) 。 然 后 在 讨论 
引入 Ee 规则 之 后 所 带 来 的 问题 ， 并 对 解析 方法 进行 修改 以 适应 所 有 的 CF 语 
法 。 


4.1.1 Sesh fe f& HK) Unger AF 4T 
方法 


为 了 了 解 Unger 方 法 如 何 解决 解析 问题 ， 让 我 们 举 一 个 小 例子 。 假 设 我 们 
有 一 个 语法 规则 : 


S > ABC | DE| F 


并 且 我 们 想 知道 S 是 否 推导 出 输入 句子 pqrs。 然 后 初始 解析 问题 可 以 用 如 下 
示意 图 来 表现 : 


对 于 每 个 手册 ， 我 们 必须 首先 生成 输入 的 所 有 可 能 的 分 区 。 生 成 分 区 并 不 
难 : 如 果 我 们 有 m 个 杯子 ， 编 号 从 1 到 m， 有 nn 个 大理 石 ， 编 号 从 1 到 nh， 我 
们 必须 找到 所 有 的 分 区 ， 使 得 一 个 杯子 至 少 装 有 一 个 大 理 石 ， 每 个 杯子 中 
大 理 石 的 编号 都 是 连续 的 ， 并 且 小 编号 杯子 所 含 大 理 石 编号 比 大 编号 杯子 
所 含 大 理 石 编号 要 小 。 我 们 这 样 来 做 : 首先 我 们 将 1 号 大 理 石 放 在 1 号 杯子 
里 ， 然 后 将 其 余 的 n-1 个 大 理 石和 m-1 个 杯子 全 部 分 区 。 这 就 让 我 们 有 了 全 
部 的 分 区 ， 在 第 一 个 杯子 中 有 且 只 有 大 理 石 1 的 情况 。 接 下 来 ， 我 们 把 大 理 
石 1、2 放 在 第 一 个 杯子 中 ， 然 后 在 对 剩 下 的 n-2 个 大 理 石和 m-1 个 杯子 进行 
分 区 ， 如 此 继续 下 去 。 如 果 n 小 于 m， 则 不 存在 分 区 。 


划分 输入 相当 于 用 杯子 ( 右 侧 的 标志 ) 来 划分 大 理 石 ( 输 入 符号 ) 。 如 果 


一 个 右 侧 有 比 句子 更 多 的 符号 ， 那 就 找 不 到 任何 分 区 (没有 8 规则 ) 。 对 于 
右 侧 的 第 一 个 标志 ， 那 分 区 则 必须 像 以 下 这 样 : 





第 一 个 子 分 区 产生 了 以 下 子 问题 : A 是 否 派生 出 p，B 是 否 派生 出 qg，C 是 否 
派生 出 1S? 这 些 问 题 的 答案 都 必须 是 肯定 的 ， 否 则 分 区 就 是 错误 的 了 。 


对 于 第 二 个 右 侧 ， 我 们 得 到 以 下 分 区 : 


p qrs 
pq |rs 
pqr s 


[ pars | 


所 有 这 些 子 问题 都 涉及 到 较 短 的 句子 ， 除 了 最 后 一 个 。 它 们 都 将 导致 类 似 
的 拆 分 ， 到 最 后 许多 都 会 失败 因为 右 侧 的 终结 符 无 法 与 对 应 部 分 的 分 区 相 
匹配 。 唯 一 会 引起 关注 的 分 区 是 最 后 一 个 。 它 和 我 们 开始 的 那个 一 样 复 
杂 。 这 就 是 我 们 不 允许 语法 中 存在 循环 的 原因 。 如 果 语 法 中 存在 循环 ， 我 
们 可 能 就 得 一 次 又 一 次 的 重复 原来 的 问题 。 例 如 ， 如 果 上 面 的 示例 中 存在 
一 个 FS 的 规则 ， 那 一 定 会 出 现 这 种 情况 。 


以 上 说 明 我 们 这 里 有 一 个 搜索 的 问题 ， 我 们 可 以 用 深度 优先 搜索 或 者 广度 
优先 搜索 技术 ( 见 3.5.2 节 ) 来 解决 它 。Unger 方 法 使 用 深度 优先 搜索 来 解 
决 。 

在 接 下 来 的 讨论 中 ， 图 4.1 的 语法 将 作为 一 个 例子 。 这 个 语法 代表 了 简单 的 
算数 表达 式 语言 ， 包 括 运算 符 + 和 x， 以 及 运算 数 i。 


Expr, —> Expr + Term | Term 
Term —> Term x Factor | Factor 
Factor 一 ( Expr ) | i 


Fig. 4.1. A grammar describing simple arithmetic expressions 


我 们 将 使 用 句子 (iti)xi 作 为 输入 示例 。 因 此 最 初 的 问题 就 表现 为 : 


将 Expr 的 第 一 个 替代 项 写 入 (i+i)xi 的 输入 ， 得 到 一 个 15 个 分 区 的 表 ， 见 图 
Fig4.2。 在 这 里 我 们 不 对 全 部 进行 讨论 ， 虽 然 算法 的 优化 版 本 需要 这 样 

做 。Fitting the first alternative of Expr with the input (i*i)xi results in a list 
of 15 partitions, shown in Figure 4.2. We will not examine them all here, 
although the unoptimized version of the algorithm requires this.We will 
only examine the partitions that have at least some chance of 
succeeding: we can eliminate all partitions that do not match the terminal 
symbol of the right-hand side. So the only partition worth investigating 
further is: 





Expr 














Fig. 4.2. All partitions for Expr ~Expr+Term 





Expr 





Expr | + | Term 





The first sub-problem here is to find out whether and, if so, how Expr 
derives (i. We cannot partition (i into three non-empty parts because it 
only consists of 2 symbols. Therefore, the only rule that we can apply is 
the rule Expr--->Term. Similarly, the only rule that we can apply next is the 
rule Term--->Factor. So we now have 





Expr 
Term 
Factor 











(i 


However, this is impossible, because the first right-hand side of Factor 
has too many symbols, and the second one consists of one terminal 
symbol only. Therefore, the partition we started with does not fit, and it 
must be rejected. The other partitions were already rejected, so we can 
conclude that the rule Expr--->Expr+Term does not derive the input. 


The second right-hand side of Expr consists of only one symbol, so we 
only have one partition here, consisting of one part. Partitioning this part 
for the first right-hand side of Term again results in 15 possibilities, of 
which again only one has a chance of succeeding: 





| Expr 
Term 


Ferm [x | Factor 


| +i) [|x [i 














Continuing our search, we will find the following derivation (the only one 
to be found): 


Expr 一 


Term 一 


Term x Factor 一 


Factor 
Expr 
Expr 


i 


一 一 一 一 一 一 一 一 


i 
i 
i 


+ 


+ 
+ 
+ 


x Factor 一 
) x Factor — 
+ Term ) x Factor 一 


Term + Term ) x Factor 一 
Factor + Term ) x Factor 一 


Term ) x Factor 一 


Factor ) x Factor 一 
i) x Factor — 
$0 62 


This example demonstrates several aspects of the method: even small 


examples require a considerable amount of work, but even some simple 


checks can result in huge savings. For example, matching the terminal 
symbols in a right-hand side with the partition at hand often leads to the 
rejection of the partition without investigating it any further. Unger [12] 

presents several more of these checks. For example, one can compute 


the minimum length of strings of terminal symbols derivable from each 


non-terminal. Once it is known that a certain non-terminal only derives 
terminal strings of length at least n, all partitions that fit this non-terminal 
with a substring of length less than n can be immediately rejected. 


5 正则 1? 吾 法 与 有 限 状 态 


正则 语法 ， 又 称 为 3 类 语法 ， 是 最 简单 的 语法 形式 ， 仍 具有 生成 力 。 他 们 可 
以 描述 串联 (连接 两 个 字符 串 在 一 起 ) 和 重复 ， 并 可 以 指定 替代 方案 ， 但 
他 们 却 无 法 表达 嵌 套 。 正 则 文法 可 能 是 正式 的 语言 学 的 最 好 理解 的 部 分 ， 
并 且 可 以 回答 关于 他 们 的 几乎 所 有 问题 。 


5.1 正则 语法 的 应 用 


除了 他 们 的 简洁 性 之 外 ， 正 则 语法 还 有 许多 的 应 用 ， 其 中 我 们 将 简要 地 提 
及 最 重要 的 部 分 。 


5.1.1 CF 解 析 中 的 正则 语言 


在 某 些 CF 语法 分 析 器 中 ， 子 分 析 器 能 够 被 分 辨 出 是 处 理 正 则 文法 的 Such 
a subparser is based implicitly or explicitly on the following surprising 
phenomenon. Consider the sentential forms in leftmost or rightmost 
derivations. Such sentential forms consist of a closed (finished) part, 
which contains terminal symbols only and an open (unfinished) part which 
contains non-terminals as well. In leftmost derivations the open part starts 
at the leftmost non-terminal and extends to the right; in rightmost 
derivations the open part starts at the rightmost nonterminal and extends 
to the left. See Figure 5.1 which uses sample sentential forms from 
Section 2.4.3. 


It can easily be shown that these open parts of the sentential form, which 
play an important role in some CF parsing methods, can be described by 
a regular grammar, and that that grammar follows from the CF grammar. 


Jt ZZ 
6 一 般 的 有 向 自 顶 向 下 解析 
(Directional Top-Down Parsing) 
在 这 一 章 中 ， 我 们 将 要 讨论 用 预测 (prediction) 尝 试 重新 推导 出 输入 句子 的 
自 顶 向 下 解析 方法 。 正 如 3.2.1 中 解释 的 那样 ， 我 们 从 开始 符号 开始 ， 尝 试 
从 它 产生 输入 和 句子 ; 在 每 一 时 刻 ， 我 们 有 一 个 名 型 代表 我 们 对 剩余 输入 多 
子 的 预测 。 将 预测 画 在 它 所 预测 的 输入 句子 的 那 部 分 正 下 面 会 很 方便 ， 左 
端 对 齐 ， 就 像 我 们 在 图 3.5 中 做 的 那样 : 


rest of input 


prediction 





这 种 句 型 由 终结 符 和 非 终结 符 组 成 。 如 果 是 一 个 终结 符 在 最 前 面 ， 我 们 将 
它 跟 当 前 的 输入 字符 匹配 。 如 果 是 一 个 非 终 结 符 在 最 前 面 ， 我 们 选择 它 的 
右 侧 中 的 一 个 ， 用 那个 右 侧 替换 该 非 终结 符 。 这 样 ， 我 们 总 是 替换 掉 最 左 
的 非 终 结 符 ， 最 后 ， 如 果 成 功 了 的 话 ， 我 们 已 经 模仿 了 最 左 推导 。 注 意 到 
预测 部 分 跟 做 最 左 推导 时 多 型 的 开放 部 分 (open part) 是 对 应 的 ， 就 像 5.1.1 
讨论 的 那样 。 


6.1 模仿 最 左 推 导 


现在 让 我 们 用 一 个 例子 解释 这 样 一 个 推导 过 程 。 考 虑 图 6.1 所 示 语 法 。 这 个 
语法 生成 所 有 有 相同 数量 a 和 b 的 句子 。 

S, — aB | bA 

A — a | aS | bAA 

B — b | bS | aBB 


Fig. 6.1. A grammar producing all sentences with equal numbers of as and bs 


让 我 们 从 开始 符号 S 开 始 尝试 解析 句子 aabb。S 是 我 们 的 第 一 个 预测 .我 们 
的 预测 的 第 一 个 符号 是 非 终结 符 ， 所 以 我 们 要 用 它 的 一 个 右 侧 替代 它 。 在 
这 个 语法 中 ，S 有 两 个 选择 : 我 们 或 者 用 规则 S 一 aB， 或 者 用 规则 S 一 bA. 
句子 从 a 开 始 而 不 是 b， 所 以 这 里 我 们 不 能 用 第 二 个 规则 。 应 用 第 一 个 规则 
我 们 得 到 预测 aB. 现 在 预测 的 第 一 个 字符 是 一 个 终结 符 。 这 里 ， 我 们 没有 选 


择 : 


a abb 


我 们 要 将 这 个 字符 和 句子 的 当前 字符 做 匹配 ， 这 里 当前 字符 也 是 a。 所 以 匹 
配 ， 接 受 a。 这 留 给 我 们 预测 B 和 剩余 的 句子 : abb。 预 测 的 第 一 个 字符 又 
是 一 个 非 终结 符 ， 所 以 要 被 它 的 一 个 右 侧 代替 。 现 在 我 们 有 三 种 选择 。 然 
而 ， 第 一 和 第 二 个 选择 在 这 里 不 适用 ， 因 为 它们 由 b 开 始 ， 但 我 们 需要 a 。 
所 以 ， 我 们 采用 第 三 个 选择 ， 现 在 我 们 有 了 预测 aBB : 


ala bb 
ala BB 


我 们 再 一 次 匹配 了 当前 的 输入 字符 ， 所 以 我 们 接受 它 ， 然 后 继续 从 预测 BB 
去 匹配 bb。 我 们 要 再 次 将 最 左 的 B 用 它 的 右 侧 替代 。 句 子 的 下 一 个 字符 是 
b， 所 以 这 里 第 三 个 选择 不 适用 。 这 仍然 留 给 我 们 两 个 选择 : b 和 bS. 所 以 我 
们 可 以 两 个 都 尝试， 或 者 用 一 点 更 聪明 的 方法 。 如 果 我 们 采用 bS, 我 们 会 得 
到 至 少 一 个 a〈 因 为 S) ， 所 以 这 不 可 能 是 正确 的 选择 。 因 此 我 们 选择 b， 
于 是 得 到 了 对 应 bb 的 预测 bB。 我 们 再 次 得 到 了 一 个 匹配 结果 ， 这 留 给 我 们 
预测 B 和 儿子 b。 由 于 同样 的 原因 ， 我 们 选择 b。 匹 配 之 后 ， 我 们 的 预测 为 
空 。 幸 运 的 是 ， 我 们 同时 到 达 了 输入 句子 的 末尾 ， 所 以 我 们 接受 这 个 名 

子 。 如 果 我 们 记录 下 了 使 用 过 的 产生 式 ， 就 能 得 到 下 面 的 推导 过 程 : 


S—aB—aaBB—aabB—aabb 





图 6.2 用 树 的 形式 展现 了 解析 的 步骤 。 图 中 的 虚线 将 已 经 处 理 过 的 于 
处 理 部 分 分 开 。 每 个 图 中 ， 预 测 部 分 最 左边 的 符号 被 处 理 。 这 个 例子 显示 
了 本 章 讨论 的 解析 器 的 几 个 共同 点 : 


a 
WwW 
M 
$ 
3» 


。 我 们 总 是 对 预测 中 的 最 左 符号 进行 处 理 
e 如果 这 个 符号 是 终结 符 ， 我 们 没有 选择 : 它 和 当前 的 输入 字符 匹配 或 
者 解析 失败 





Fig. 6.2. Production trees for the sentence aabb 


e 如 果 这 个 符号 是 非 终结 符 ， 我 们 需要 做 出 一 个 猜测 : 它 需 要 被 它 的 一 
个 右 侧 蔡 代 。 因 此 ， 我 们 总 是 先 处 理 预 测 中 的 最 左 符号 ， 从 而 得 到 了 
最 左 推导 。 

e 所 以 ， 自 顶 向 下 方法 将 解析 树 的 节点 用 前 序 组 织 : 父 节 点 在 它 的 儿子 
之 前 被 识别 。 


6.2 下 推 自动 机 (pushdown 
automaton) 


在 上 面 的 例子 中 我 们 进行 的 步骤 跟 所 谓 的 下 推 自动 机 很 相似 。 下 推 自 动机 
(PDA) 是 一 个 假想 的 数学 装置 ， 它 读 入 输入 囊 ， 用 栈 (stack) 进行 控 
制 。 栈 内 可 以 包含 属于 栈 符号 表 (stack alphabet) 的 符号 。 栈 是 一 种 只 能 
从 一 端 被 使 用 的 列表 : 最 后 一 个 进入 (“pushed”) 列表 的 是 第 一 个 被 取出 

(“popped”) 的 。 栈 有 时 被 叫做 先进 先 出 表 (first-in,last-out list 或 FILO 
list) : 第 一 个 进去 的 符号 最 后 一 个 出 来 。 在 上 面 的 例子 中 ， 预 测 的 工作 方 
式 就 像 一 个 栈 ， 这 也 就 是 下 推 自 动机 使 用 栈 的 目的 。 因 此 我 们 将 这 个 栈 称 
作 预 测 栈 (prediction stack) 。 同 时 ， 这 个 栈 解 释 了 术语 “下 推 " 自 动机 : 为 
了 后 续 过 程 ， 自 动机 在 栈 上 “ 推 入 "符号 。 


下 推 自动 机 的 工作 方式 是 弹出 一 个 栈 符 号 然后 读 一 个 输入 符号 。 接 着 这 两 
个 符号 一 般 会 提供 我 们 几 种 将 被 推 入 的 栈 符号 串 的 一 个 选择 。 所 以 存在 一 
个 (输入 符号 ， 栈 符号 ) 二 元 组 到 栈 符号 串 列表 的 映射 。 在 栈 空 并 且 达 到 
输入 符号 尾 的 时 候 ， 自 动机 接受 输入 的 句子 。 如 果 选 择 存 在 多 种 (所 以 
(输入 符号 ， 栈 符号 ) 映射 到 不 止 一 个 的 串 上 ) ， 当 存在 一 些 选择 使 得 读 
到 句 尾 时 栈 空 时 ， 自 动机 接受 句子 。 


这 种 自动 机 是 以 满足 格雷 巴赫 范式 (Gretbach Normal Form, GNF) 的 上 
下 文 无 关 语 法 为 模型 的 。 在 这 种 范式 中 ， 所 有 语法 规则 都 满足 A 一 a 或 

A 一 aB1B2...Bn, 这 里 a 是 一 个 终结 符 ，A,B1,….Bn 有 是 非 终结 符 。 栈 符号 当然 
是 终结 符 。A->*aB1B2...Bn 形 式 的 规则 对 应 着 (aA) 对 B1B2...Bn 的 映 
射 。 这 意味 着 如 果 输 入 符号 是 a， 预 测 栈 栈 顶 是 A， 我 们 可 以 接受 a， 将 预 
MEAR A $B4B2..Bn ° ASaX E X (aA) 向 空 串 的 映射 。 开 始 
时 ， 这 个 自动 机 栈 顶 为 语法 的 开始 符号 。 每 一 个 不 产生 空 串 的 上 下 文 无 关 
语法 都 能 转化 为 格雷 巴赫 范式 (Greibach[8]) 。 大 多 数 形式 语言 理论 的 书 
都 讨论 了 如 何 做 这 项 工作 (例如 见 Hopcroft and Ullman[391]) ° 


图 6.1 的 示例 语法 已 经 是 格雷 巴赫 范式 了 ， 所 以 我 们 轻松 的 从 它 构 建 一 个 下 
推 自动 机 。 这 个 自动 机 在 图 6.3 用 映射 的 形式 表示 了 出 来 。 


(a, S) — B 
(b, S) — A 
(a, A) — 

(a, A) — S 
(b, A) —> AA 
(b, B) 一 

(b, B) - S 
(a, B) — BB 


Fig. 6.3. Mapping of the PDA for the grammar of Figure 6.1 


这 里 有 很 重要 的 一 点 需要 注意 : 很 多 下 推 自动 机 是 非 确定 (non- 
deterministic) 的 。 比 如 ， 图 6.3 所 示 的 下 推 自 动机 可 以 为 (a,A) 选择 空 串 
或 S。 事 实 上 ， 存 在 不 能 构建 出 确定 的 下 推 自动 机 的 上 下 文 无 关 语言 ， 尽 管 
我 们 能 构建 出 非 确定 的 。 


还 需要 提 及 的 是 : 这 里 我 们 讨论 的 下 推 自动 机 是 自动 机 理论 里 的 的 简化 

a 在 自动 机 理论 里 ， 下 推 自动 机 有 状态 (state) ， 相 应 的 映射 是 从 (R 
， 输入 符号 ， 栈 符号 ) 三 元 组 到 (状态 ， 栈 符号 列表 ) 的 二 元 组 。 从 这 

度 看 ， 它 们 像 是 用 一 个 栈 拓展 了 的 有 限 状 态 自 动机 (第 五 章 讨论 

的 ) 。 而 且 ， 下 推 自动 机 有 两 种 类 型 : 一 些 用 栈 空 表示 接受 句子 ， 另 一 些 

用 在 标注 为 接受 状态 (accepting state) 的 状态 处 结束 表示 接受 。 也 许 这 

点 会 令 人 惊讶 ， 拥 有 状态 并 不 能 让 下 推 自 动机 这 个 概念 更 有 力 

(powerful) ， 有 状态 的 下 推 自动 机 仍然 只 能 接受 可 以 被 上 下 文 无 关 语法 

描述 的 语言 。 在 我 们 的 讨论 中 ， 下 推 自动 机 只 有 一 个 状态 ， 所 以 我 们 已 经 

忽略 它 了 。 


如 果 我 们 想 将 其 转化 为 解析 用 的 自动 机 (parsing automata) ， 以 上 描述 
的 下 推 自动 机 有 几 个 缺点 需要 克服 。 首 先 ， 下 推 自动 机 需要 我 们 将 我 们 的 
语法 转化 为 格雷 巴赫 范式 。 虽 然 语 法 转换 对 形式 语言 学 家 不 是 问题 ， 我 们 
希望 避免 它们 ， 尽 量 用 原始 的 语法 。 现 在 我 们 稍微 放宽 格雷 巴赫 范式 的 要 
求 ， 允 许 栈 符号 是 终结 符 ， 然 后 对 所 有 a， 在 映射 关系 中 添加 (a,a) 一 这 样 
我 们 就 能 使 用 所 有 右 侧 都 由 终结 符 开始 的 任何 语法 了 。 同 时 ， 我 们 可 以 将 
下 推 自 动机 的 工作 步骤 分 为 "匹配 ?和 “预测 ”， 就 像 我 们 在 6.1 节 中 的 例子 做 


的 那样 。" 匹 配 ?步骤 对 应 (a,a) 一 的 使 用 ，“ 预 测 " 步 骤 对 应 (,A) 一 .…， 这 个 就 
是 说 ， 栈 上 的 非 终结 符 被 它 的 一 个 右 侧 替代 ， 不 用 消 eee 。 对 图 6.1 
所 示 语 法 ， 这 样 表 时 候 的 结果 如 图 6.4 所 示 ， 这 事实 上 仅仅 就 是 重 写 

6.1 的 语法 。 


(, S) — aB 
(, S) — bA 
(, A) — a 
(, A) - aS 
(, A) — bAA 
(, B) — b 
(, B) — bs 
(, B) —> aBB 
(a, a) — 
(b, b) 一 


Fig. 6.4. Match and predict mappings of the PDA for the grammar of Figure 6.1 


我 们 之 后 将 会 看 到 ， 即 使 用 了 这 种 方法 ， 我 们 还 是 有 可 能 必须 改动 语法 ， 
但 现在 这 看 起 来 非常 前 途 有 望 ， 所 以 我 们 采用 这 种 策略 。 这 个 策略 同时 解 
决 了 另 一 个 问题 : 规则 不 再 需要 特殊 的 处 理 了 。 为 了 得 到 格雷 巴赫 范式 ， 
我 们 要 除去 它们 但 是 这 不 再 需要 了 ， 因 为 它们 刚好 对 应 (,A) 一 


第 二 个 缺点 是 这 个 下 推 自动 机 没有 保存 使 用 过 的 规则 (映射 ) 的 记录 。 
此 ， 我 们 在 这 个 自动 机 中 引入 一 个 解析 栈 (analysis stack) 。 对 每 一 个 预 
测 的 步骤 ， 我 们 将 被 蔡 换 的 非 终 结 符 ， 以 使 用 的 右 侧 的 序号 (将 右 侧 从 1 到 
n 标 上 序号 ) 为 后 级 推 入 解析 栈 。 这 样 ， 解 析 栈 刚好 跟 图 6.2 中 虚线 左边 的 
部 分 对 应 ， 这 个 虚线 表示 了 解析 栈 hy 测 栈 的 分 隔 。 这 寻 致 了 这 个 自动 机 
在 每 个 时 候 都 有 如 图 6.5 所 示 结 构 。 这 个 结构 ， 跟 当前 状态 ， 栈 等 等 ， 被 称 
作 一 个 即时 描述 (instantaneous description) 。 在 图 6.5 中 ， 匹 配 过 程 可 
以 本 看 作 将 坚 直 线 向 右 推 。 


matched input |rest of input 


analysis | prediction 


Fig. 6.5. An instantaneous description 


然而 最 重要 的 第 三 个 缺点 ， 是 非 确定 性 。 形 式 上 ， 这 个 自动 机 当 且 仅 当 有 
一 个 选择 的 序列 使 得 在 句 尾 的 时 候 栈 空 接受 句子 ， 这 个 说 法 可 能 让 人 满 
意 ， 但 是 对 于 我 们 的 目的 不 是 这 样 ， 因 为 这 没有 告诉 我 们 怎么 得 到 这 个 序 
列 。 我 们 必须 引导 自动 机 去 做 正确 的 选择 。 回 看 6.1 节 的 例子 ， 在 推导 的 很 
多 时 候 需 要 做 出 选择 ， 而 且 我 们 的 选择 基于 了 一 些 对 当前 的 语法 的 特殊 的 
考虑 : 有 时 我 们 关注 句子 的 下 一 个 符号 ， 也 有 时 我 们 看 得 更 远 ， 去 确定 之 
后 没有 a 出 现 。 在 这 个 例子 里 ， 选 择 是 容易 的 ， 因 为 所 有 右 侧 由 终结 符 开 
始 。 然 而 一 般 的 ， 找 到 正确 的 选择 要 困难 的 多 。 比 如 右 侧 可 以 由 一 个 非 终 
结 符 开始 ， 它 又 有 从 非 终结 符 开 始 的 右 侧 ， 等 等 。 


在 第 八 章 我 们 将 看 到 ， 给 定 甸子 的 下 一 个 符号 ， 很 多 语法 仍然 允许 我 们 决 
定 使 用 哪 一 个 右 侧 。 但 是 在 本 章 中 ， 我 们 将 关注 能 在 更 大 一 部 分 的 语法 上 
工作 的 自 顶 向 下 解析 方法 。 而 不 是 尝试 基于 特殊 考虑 来 决定 选择 ， 我 们 要 
从 所 有 可 能 出 发 来 引导 自动 机 。 在 第 三 章 我 们 曾 看 到 ， 在 解决 在 特定 的 点 
有 多 种 分 支 的 问题 的 时 候 一 般 有 两 种 方法 : 深度 优先 搜索 和 广度 优先 搜 

索 。 我 们 将 看 到 如 何 完成 这 两 种 方法 的 机 器 操作 。 由 于 操作 的 步 数 可 能 会 
按 输 入 规模 以 指数 级 别 增长 ， 即 使 是 一 个 小 例子 也 可 能 有 庞大 的 作业 量 。 

为 了 让 事情 更 有 趣 ， 我 们 将 只 用 图 3.4 所 示 的 固有 歧义 的 语言 ， 这 个 语法 在 
图 6.6 这 里 重复 了 一 遍 。 我 们 将 用 aabc 作 为 测试 输入 。 


S, — AB | DC 
A — a | aA 
B — bc | bBc 
D — ab | aDb 
C 


— c | cC 


Fig. 6.6. A more complicated example grammar 


6.3 广度 优先 自 顶 向 下 解析 
(Breadth-First Top-Down 
Parsing) 


用 于 自 顶 向 下 解析 问题 的 广度 优先 方法 是 去 维护 一 个 所 有 预测 的 列表 。 然 

后 每 一 个 预测 都 像 上 面 6.2 节 说 的 那样 处 理 ， 也 就 是 说 ， 如 果 栈 顶 是 一 个 非 
终结 符 ， 预 测 栈 就 被 一 些 新 的 预测 栈 替 换 ， 新 的 预测 栈 数量 跟 它 所 对 应 的 

选择 数 相 同 。 在 这 每 一 个 新 栈 里 ， 栈 顶 的 非 终结 符 被 对 应 的 选择 替换 。 预 

测 步 骤 对 所 有 预测 栈 施用 (包括 新 生成 的 ) ， 直 到 所 有 预测 栈 栈 顶 都 是 终 
结 符 。 这 时 对 所 有 预测 栈 ， 我 们 将 最 前 面 的 终结 符 与 当前 输入 符号 进行 匹 
配 ， 将 不 匹配 的 预测 栈 删 去 。 如 果 没 有 预测 栈 剩 下 来 ， 这 个 名 子 不 属于 该 

语言 ， 所 以 ， 我 们 的 自动 机 现在 维护 一 组 (stack,analysis stack) 而 不 是 

一 个 ， 其 中 每 一 个 对 应 一 个 可 能 选择 ， 如 图 6.7 所 示 。 


matched input | rest of input 














analysis] | prediction 1 
analysis2 | prediction2 






Fig. 6.7. An instantaneous description of our extended automaton 


这 个 方法 对 在 线 解 析 (on-line parsing) 同样 适用 ， 因 为 它 按 从 左 到 右 的 顺 
序 处 理 输入 串 。 从 左 到 右 处 理 输入 并 且 得 到 最 左 推导 (leftmost 
derivation) 的 解析 方法 被 称 为 LL 解析 方法 。 第 一 个 L 代 表 从 左 到 右 ， 第 二 
个 代表 最 左 推 导 。 依 此 我 们 基本 知道 了 该 怎么 写 出 这 样 一 个 解析 器 ， 但 现 
在 我 们 还 有 一 个 细节 没有 恰当 地 处 理 : 终止 。 当 最 终 我 们 得 到 了 一 个 空 的 
预测 栈 时 ， 输 入 句子 就 属于 该 语法 描述 的 语言 吗 ? 仅 当 输 入 被 读 完 才 是 ! 
为 了 避免 这 个 额外 的 检查 ， 并 且 避 免 出 现 已 经 达到 句 尾 但 解析 没有 停止 的 


情况 ， 我 们 引入 一 个 特殊 的 终止 记号 (end marker) #. 这 个 终止 记号 附加 
在 句子 和 预测 的 末尾 ， 所 以 当 它 们 成 功 匹 配 时 我 们 就 能 知道 这 个 预测 匹配 
4 HAF BENE 


ys 


6.3.1 一 个 例 了 


6.3.1 一 个 例子 


b 
e) | aabc# 
| Si S; | DC# 


S5 | ABH 


a | abc# 


(d) 













SıDı 

S|D2 | aDbC# 

S Aj 

S2A2 

(e) (f) 
a | abc# aa | bci 

SjDja SjD2aD;a | bbC# 
S,D aD; Sj;D;aD;a DbbC # 
S;DjaD; 
S2A)aB) S2A2aA2a | ABH 
S;A;aB; 


(g) (h) 


aab | c# 


SjD5;aD;a SjD5aD;ab bc# 
S,DzaD aD; S5;A;aA;aB;b | c# 
SıD2aD2aD2 S2A2aA)aB2b | Bc# 
S5A5aA,;aB, 

S2A2aAlaB? 


S2A2aA2aA) 
SA aA, aA, 





UV) 
aabc | # 
SıD2aD;ab | bC# S2R2aalaBlbc | # 
S2A2aA]aBıb | c# 
S5A;aA,aB;bB, | bcc# 
S2A2aA)|aB2bB) | bBcc# 





Fig. 6.8. The breadth-first parsing of the sentence aabc 
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图 6.8 展 示 了 对 句子 aabc 的 一 个 完整 的 广度 优先 解析 过 程 。 最 开始 只 有 一 个 
预测 栈 : 它 包 含 开 始 符号 和 终止 记号 ;没有 符号 被 接受 (a) 。 得 到 (b) 的 
步骤 是 一 个 预测 步骤 ;有 两 个 可 能 的 右 侧 ， 所 以 我 们 得 到 两 个 预测 栈 。 预 测 
栈 的 不 同 也 表现 在 了 分 析 栈 上 ，S 的 不 同 后 组 代表 不 同 的 右 侧 选择 。 下 一 个 
有 多 种 右 侧 的 预测 步骤 得 到 了 《〈Cc) 。 现 在 所 有 预测 栈 栈 顶 都 是 终结 符 ; 刚 
好 都 成 功 匹配 ， 得 到 〈d) 。 接 下 来 ， 有 些 预测 开头 又 是 非 终结 符 了 ， 所 以 
进行 下 一 个 预测 步骤 得 到 (e) 。 下 一 个 步骤 是 匹配 步骤 ， 幸 运 的 是 ， 有些 
匹配 失败 了 ;这 些 会 被 去 掉 ， 因 为 由 它们 不 可 能 得 到 成 功 的 解析 。 从 (P). 到 
(g) 又 是 一 个 预测 步骤 。 另 一 个 有 一 些 失 败 匹 配 的 匹配 步骤 让 我 们 得 到 
(h) 。 更 远 的 一 个 预测 步骤 导致 〈i) 然后 接着 一 个 匹配 步骤 最 终 给 我 们 
带 来 (j) ， 终 止 记号 匹配 ， 解 析 成 功 。 

解析 (analysis) 是 

S2A2aA1aB1bc# 

目前 ， 我 们 不 需要 解析 里 的 终结 符 :把 它们 去 掉 得 到 

S2A2A1B1 

这 说 明 我 们 通过 先 应 用 规则 S2， 再 A2 等 等 得 到 最 左 推导 ， 每 次 替代 掉 最 左 
的 非 终 结 符 。 检 查 一 下 : 

S 一 AB 一 aAB 一 aaB 一 aabc 

这 里 描述 的 广度 优先 最 初 被 Greibach [7] 陈 述 。 但 是 ， 在 那个 陈述 中 ， 语 法 
被 转化 为 了 格雷 巴赫 范式 ， 并 且 使 用 的 步骤 跟 我 们 最 开始 的 下 推 自动 机 的 
相似 。 预 测 和 匹配 步骤 被 结合 起 来 了 。 





6.3.2 一 个 反例 : 42% ya (Left 
recursion ) 


上 述 方法 明显 适用 于 那个 语法 ， 那 么 问题 是 它 是 否 对 所 有 上 下 文 无 关 语 法 
都 适用 呢 ? 有 的 人 可 能 认为 是 ， 因 为 在 任何 出 现 的 预测 里 ， 对 所 有 非 终结 
符 ， 所 有 可 能 都 被 有 系统 地 尝试 了 。 不 幸 的 是 ， 这 个 推理 有 个 严重 的 缺 
点 ， 这 被 下 一 个 例子 说 明了 : 让 我 们 看 看 句子 ab 是 否 属于 这 个 简单 语法 定 
义 的 语言 : SoSbla 我 们 的 自动 机 从 下 面 的 状态 开始 : 


ab# 
S# 
因为 在 预测 的 开始 是 一 个 非 终 结 符 ， 我 们 进行 预测 步骤 ， 得 到 : 
ab# 
S, | Sb# 
S2 | a# 


有 一 个 预测 再 次 以 非 终结 符 开 始 ， 我 们 再 进行 预测 : 


ab# 
S1S, | Sbb# 
S,S» | abii 
S2 | a# 





现在 ， 很 清楚 发 生 了 什么 事 : 我 们 好 像 最 终 进 行 了 一 个 无 限 的 过 程 ， 什 么 
都 得 不 到 。 导 致 这 样 的 原因 是 我 们 一 直 在 尝试 SSb 规 则 ， 从 未 达到 可 以 
尝试 匹配 的 状态 。 无 论 何 时 ， 有 一 个 非 终 结 符 能 推导 出 无 限 多 的 由 非 终结 
符 开 始 的 名 型， 这 个 问题 就 会 发 生 ， 进 而 没有 匹配 步骤 会 发 生 。 因 为 这 无 


限 多 的 多 型 由 非 终 结 符 开 始 ， 非 终结 符 的 数量 又 是 有 限 的 ， 就 至 少 有 一 个 
非 终 结 符 在 开头 出 现 过 超过 一 次 。 所 以 我 们 有 : A_、..._>Aa. 一 个 能 推导 出 
由 自己 开始 的 名 型 的 非 终 结 符 就 叫做 左 递归 。 


É gap LAP RAL : 当 有 一 个 A 一 Aa 这 样 的 语法 规则 ， 我 们 称 为 直接 左 递 
J2 (immediate left recursion) ， 就 像 规则 S 一 >Sb; 当 递归 通过 了 其 他 规 

Rl > reteA—>Ba,B—AB > RMI A I8] 423% ya. (indirect left recursion) 。 这 
些 形式 的 左 递归 都 可 能 被 E- 产 生 式 隐藏 ;这 分 别 导 致 隐藏 左 递 具 (hidden left 
recursion) 和 隐藏 间接 左 递 归 (hidden indirect left recursion) 。 比 如 在 这 
个 语法 里 


S — ABc 
B — Cd 
B -> ABT 
C — Se 
A -— 8 


非 终结 符 S,B, 和 都 是 左 递归 的 。 有 堪 递归 的 非 终 结 符 的 语法 也 称 为 左 递归 
ii Zik © 


Fd iso. 也 没有 循环 (loop) 的 情况 下 ， 如 果 我 们 使 用 一 个 额外 

步 又， 我 们 仍然 可 以 使 用 我 们 的 解析 策略 : 如 果 一 个 预测 栈 有 超过 输入 
ae 度数 量 的 符号 ， 它 不 可 能 推导 出 输入 句子 (每 一 个 非 终 结 符 推导 出 
至 少 一 个 符号 ) ， 所 以 它 能 被 去 掉 。 然 而 ， 这 个 小 技巧 有 一 个 大 现 端 : 它 
需要 提前 甸 FUR > 所 以 这 个 方法 不 再 适用 于 在 线 解析 。 幸 运 
的 是 ， 左 递归 能 被 消除 : 给 定 一 个 左 递归 语法 ， 我 们 可 以 将 它 转化 为 一 个 
ae DN 结 符 的 语法 。 鉴 于 对 任何 自 顶 向 下 解 
析 方 法 ， 左 递归 都 是 一 个 主要 问题 ， 我 们 将 要 讨论 这 个 语法 转化 。 


6.4 IR Ic 3 ya 


我 们 先 讨 论 消除 直接 左 递归 的 方法 。 假 定 e- 规 则 和 单元 规则 (unit rule) 已 
经 被 消除 了 ( 见 4.2.3.1 和 4.2.3.2) 。 现 在 ， 令 A 是 一 个 左 递归 的 非 终结 符 
(原文 为 rule) ， 并 且 


A 一 Aq | +++ |Aon | Bi | +++ | Bm 


是 A 的 所 有 规则 。 没 有 等 于 e 的 ai， 否 则 我 们 会 有 A 一 A， 一 个 单元 规则 。 也 
没有 等 于 Ee 的 Bj > 否则 会 有 一 个 -规则 。A 只 用 A->Aak 规 则 生成 的 名 型 有 这 
样 的 形式 : 


AO, Ok, r "Ok; 


t B. SAB AMM RA > RAMA + at ESL o de — Eau kj, € 
有 如 下 的 形式 : 


D; Otk, Ox, OK; 


这 里 ] 可 能 为 0. 同 样 的 句 型 可 以 被 如 下 规则 生成 : 


Ahead "S By | m | Bm 

Amil 一 0 | ana | On 

Ata 一 Å tail Åtails | € 
A 一 Ahead Atails 


或 者 ， 使 得 没有 新 的 E 规 则 重新 生成 的 话 : 


Ahead = pi | icut | Bm 
Agi — Oy | 
Ata 一 Lair Araits | Atail 
A 一 Ahead Atails | Ahead 


这 里 Ahead,Atail 和 Aitails 是 新 引入 的 非 终 结 符 。 没 有 ai 是 E， 所 以 Atail 不 会 
推导 出 e， 所 以 Atails 不 是 左 递归 。A 可 能 仍然 是 左 递归 的 ， 但 不 是 直接 左 递 
归 ， 因 为 没有 Bj 以 A 开始 。 然 而 ， 它 们 可 能 推导 出 以 A 开始 的 名 型。 一 般 
的 ， 消 除 间 接 左 递归 要 更 复杂 。 思 路 就 是 先 将 非 终 结 符 标 号 ， 标 为 
A1;,A2,…,An. 现 在 ， 对 一 个 左 递归 非 终结 符 A， 有 一 个 推导 
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， 每 时 每 刻 钨 型 的 最 左边 都 是 非 终结 符 ， 然 后 再 三 地 用 它 的 一 个 右 侧 替 
代 。 每 一 个 非 终结 符 都 有 一 个 标号 ， 写 作 i1,iz,…,im, 于 是 在 推导 中 我 们 得 到 
了 这 么 一 串 数 : i1,i2:im,i1: 现 在 ， 如 果 我 们 EA ERA AAE 这 就 是 
不 可 能 的 ， 因 为 i1<i2<...<im<i1 是 不 可 能 的 。 现 在 就 要 消除 这 样 的 规则 。 
我 们 从 A1 开 始 。 对 A1， 要 消除 了 只 是 直接 递归 的 规则 ， 我 们 已 经 看 到 了 应 
该 怎么 做 。 接 着 轮 到 A2。 每 一 个 有 着 A2 一 A10 形 式 的 产生 式 都 要 被 蔡 代 成 
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这 里 A1 的 规则 为 
A1 | :… | om 


这 不 可 能 产生 Ap_>A1Y 形 式 的 新 规则 ， 因 为 我 们 已 经 消除 了 A1 的 左 递归 规 
则 ， 而 且 ai 都 不 为 E。 接 着 ， 我 们 消 ie n 直接 递归 规则 。 这 样 对 A2 的 工 
作 就 结束 了 。 类 似 的 ， 我 们 对 A3 到 An 进行 处 理 ， 按 照 总 是 先 蔡 代 Ai 一 A1Y， 
再 Ai 一 A25 等 等 的 顺序 。 我 们 必须 按照 这 样 的 顺序 ， 因 为 ， 替 换 一 个 

Ai 一 A25 的 规则 可 能 会 引入 Ai 一 A3yY 这 样 的 规则 ， 而 不 会 是 Ai 一 A1a 


6.5 深度 优先 〈 回 溯 ) 解析 器 


上 一 节令 述 的 广度 优先 方法 有 一 个 缺点 ， 它 会 占用 大 量 内 存 。 深 度 优先 方 
法 也 有 一 个 不 足 ， 它 的 一 般 形式 不 适用 于 在 线 解 析 。 然 而 ， 有 很 多 应 用 场 
景 下 不 需要 在 线 解 析 ， 于 是 深度 优先 方法 就 比较 有 利 ， 因 为 它 不 需要 大 量 
内 存 。 


在 深度 优先 方法 中 ， 当 我 们 面临 多 种 可 能 选择 时 ， 选 择 一 个 ， 暂 时 搁置 其 
他 可 能 。 首 先 ， 充 分 地 检查 我 们 的 选择 产生 的 结果 。 如 果 选择 被 证 明 是 错 
误 的 (或 者 是 成 功 的 ， ee 部 的 解 ) ， 就 回 滚 我 们 的 操作 直到 现在 
的 状态 ， 然 后 用 其 他 的 可 能 选择 继续 。 


让 我 们 看 看 这 个 搜索 技术 是 怎么 应 用 于 自 顶 向 下 解析 的 。 我 们 的 深度 优先 
解析 器 遵循 跟 广 度 优 先 解 析 器 一 样 的 操作 ， 直 到 遇 到 一 个 选择 : 预测 栈 顶 
的 非 终结 符 有 超过 一 个 右 侧 。 现 在 ， 选 择 第 一 个 右 侧 ， 而 不 是 建立 一 个 新 
的 解析 栈 / 预 测 栈 。 这 个 选择 通过 在 涉及 到 的 非 终结 符 附 上 下 标 1, 来 反映 到 
解析 栈 上 ， 跟 我 们 在 广度 优先 解析 器 那 做 的 一 样 。 然 而 这 次 ， 解 析 栈 不 仅 
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解析 器 继续 这 个 过 程 ， 直 到 发 生 匹配 失败 ， 或 者 终止 记号 成 功 匹配 。 如 果 
预测 栈 是 空 的 ， 我 们 就 找到 了 一 个 解析 ， 它 被 解析 栈 的 内 容 所 描述 ;如 果 匹 
配 失 败 ， 解 析 器 会 回溯 。 这 个 回溯 包 tds : 首先 ， 解 析 栈 顶 的 所 有 
终结 符 出 栈 ， 并 依次 推 入 预测 栈 。 并 且 ， 这 些 符号 从 已 匹配 输入 中 移出 ， 
| 余 输入 的 开始 处 。 这 是 “匹配 oe. 。 所 以 遍及 终结 符 的 回 
溯 通 过 向 后 移动 坚 线 完 成 ， 就 像 图 6.9 那 样 。 
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Fig. 6.9. Backtracking over a terminal 


那么 有 两 种 可 能 : 如 果 解 析 栈 空 ， 就 没有 其 他 可 能 可 以 尝试 ， 解 析 结 束 ; 否 
则 ， 解 析 栈 顶 是 一 个 非 终结 符 ， 并 且 预 测 栈 顶 对 应 了 它 的 一 个 右 侧 。 选 择 


这 个 右 侧 导致 了 失败 的 匹配 。 这 种 情况 下 ， 我 们 从 解析 栈 弹 出 这 个 非 终结 
符 ， 用 它 蔡 换 预 测 栈 顶 对 应 它 的 右 侧 的 部 分 ， 就 像 图 6.10 那 样 。 
a1 42 +++ Gj|Gj41 *… An # 4102 +++ Ai | Aii *… An # 
o Ay | y BH ajA ps 
(1) (2) 


Fig. 6.10. Backtracking over the choice for the k-th rule for A, A — y 


接 下 来 有 两 种 可 能 : 如 果 那 是 这 个 非 终结 符 最 后 一 个 右 侧 ， 我 们 已 经 尝试 
过 它 的 全 部 右 侧 ， 需 要 进一步 回溯 ;如 果 不 是 ， 我 们 再 次 开始 解析 ， 首 先 用 
它 的 下 一 个 右 侧 替 换 掉 这 个 非 终结 符 。 


现在 让 我 们 尝试 解析 句子 aabc， 这 次 使 用 回溯 解析 器 。 图 6.11 一 步 步 展示 
了 这 个 过 程 ;回溯 步骤 用 B 标 注 了 出 来 。 这 个 例子 表露 了 回溯 方法 的 另 一 个 
缺陷 : 它 可 能 会 做 出 错误 的 选择 ， 在 很 久之 后 才 会 发 现 。 


就 像 这 里 展示 的 ， 解 析 过 程 会 在 解析 被 找到 的 时 候 停止 。 如 果 我 们 想 找到 
全 部 的 解析 ， 在 终止 记号 匹配 时 ， 我 们 不 应 该 停止 。 我 们 可 以 使 用 回溯 来 
继续 ， 就 好 像 没 有 找到 成 功 的 解析 ， 并 且 在 每 次 匹配 终止 记号 时 记录 下 解 
析 栈 ( 它 代 表 了 解析 过 程 ) 。 最 后 ， 我 们 的 解析 栈 变 空 ， 表 示 我 们 已 经 穷 
尽 了 所 有 可 能 ， 这 时 解析 停止 。 















































































































































aabc# aabc# aabc# 
a a 
Sit Sı |DCK S1D1 | abC# 
qd) (2) (3) 
a|abcit B aabc# B aabc# 
一 和 a 
SjDj;a|bCi SıDı | abc# Sı |DjCf 
(4) (5) (6) 
aabc# a|abc# a|abc# 
-m =- 
SıD2|aDbC# SıD2a |DbC# SiD2aD] | abbC# 
(7) (8) (9) 
aa|bc# aab|c# B aa|bc# B 
a = = 
SiD2aD1a |bbCit S,|D2aD;ab|bC# S,D2aD;a|bbC# 
(10) (11) (12) 
a|abcit B 
> 
SjD2aD, | abbC# 
(13) 
aa|bc# aa|bcit B bci 
一 一 —— 
$,D aD a|DbbC# S,D aD aD, | abbbC# S,D aD a|D,;bbC# 
(16) (17) (18) 
aa aa|bc# B abc# B 
SıD2aD2aD7 SıD2aD2a |D;bbCi SjD5aD; | aD» bbC# 
(19) (20) (21) 
a|abc# B aabc# B aabc# B 
S,D2a|D2bC# S|D2|aD2bC# Sı |D2C# 
(22) (23) (24) 
aabc# aabc# aabc# 
aS 二 — 
Si# S| ABH SA) | aB# 
(25) (26) (27) 
alabcit alabc# B abc# 
— _ 一 — 
S2Aja|B# SoA); aB, |bc# S.A; a|B,# 
(28) (29) (30) 
B aabc# p 
> »- a 
bBc# S5A, | aBo# 
(31) (32) (33) 
aabc# aabc# a|abc# 
一 二 = 
S>|A|Bo# S5A5 | aABH SA, a| ABH 
(34) (35) (36) 
a|abcit aa|bc# aa|bc# 
»-— »- = 
S2A2aA] |aB# S2A2aAja |B# S5A;aA,;aB,|bcit 
(37) (38) (39) 
aab|c# aabc|# 
_ 
SoA. aA) aB b|c# SA) aA) aB)bc|# 
(40) (41) 


Fig. 6.11. Parsing the sentence aabc 


6.5 深度 优先 (AH) 解析 器 


222 


6.6 2% Ja F 


在 前 面 的 小 节 里 ， 我 们 已 经 见 过 了 几 种 自动 机 的 工作 ， 在 处 理 输入 句子 时 
用 语法 决定 解析 的 步 又。 现在 有 另 一 种 方式 的 说 明 : 这 些 自动 机 将 语法 作 
为 程序 。 将 一 个 语法 看 作 解 析 机 器 的 一 个 程序 并 不 像 看 起 来 那么 牵强 。 人 毕 
竟 ， 一 个 语法 是 推导 其 所 描述 的 语言 的 句子 的 指示 ， 我 们 在 自 顶 向 下 解析 
中 做 的 就 是 从 一 个 语法 重新 推导 一 个 句子 。 这 跟 将 语法 看 作 生 成 装置 的 传 
统 观 点 的 差别 仅 在 于 我 们 现在 在 尝试 重 推导 一 个 特定 的 句子 ， 而 不 是 任意 
句子 。 以 这 种 方式 看 ， 语 法 就 是 程序 ， 以 一 种 描述 性 的 编程 语言 写成 一 一 
就 是 说 ， 这 种 语言 定义 结果 而 不 是 获得 结果 需要 进行 的 步骤 。 


如 果 想 写 一 个 给 定 的 上 下 文 无 关 语 法 的 解析 器 ， 我 们 有 两 种 选择 。 第 一 种 
是 按照 前 几 节 里 描述 的 自动 机 是 写 一 个 程序 。 这 个 程序 可 以 以 一 个 语法 和 
一 个 句子 为 输入 。 这 听 起 来 很 完美 ， 而 且 吻 于 实现 。 困 难 来 自 于 当 解 析 器 
必须 在 部 分 输入 被 识别 时 进行 一 些 其 他 操作 的 时 候 。 比 如 ， 当 处 理 了 一 个 
声明 语句 ， 编 译 器 须要 生成 符号 表 。 对 效率 的 考量 与 这 一 点 一 起 引导 出 第 
二 个 选项 : 对 给 定语 法 写 一 个 专用 的 解析 器 。 有 很 多 这 样 的 专用 解析 器 ， 
其 中 的 大 多 数 都 用 了 一 个 叫做 递归 下 降 的 识别 技术 。 我 们 将 假设 读者 具有 
一 定 的 编程 经 验 ， 明 白 过 程 和 递归。 如 果 不 是 ， 这 一 节 可 以 跳 过 。 本 节 没 
有 描述 新 的 解析 方法 ， 只 描述 了 一 个 实现 的 技术 ， 它 常用 于 手写 解析 器 和 
一 些 机 器 生成 的 解析 器 。 


